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لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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فهرس الكتاب 
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M ON NBN pare |‏ 
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کک mr‏ اللا ON‏ 
Wm eren pt TUBES g |‏ 
poe ee um eO DTE £‏ 
CH ET [‏ د 2 EN MN‏ 


5- تطبيقات LLN‏ الآلية VYW‏ باستخدام لغة الشبكات OA‏ 
EL‏ العالة 


م مسا 
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4- تقويم A Em‏ 
5- أمثلة على مجالات الإفادة من التحو العَدَدِيٌّ TE‏ 
.1 - أفكارٌ Zt‏ لأطروحات علمية مُستقبليّة A0‏ 
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OOO‏ 


كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
I s I tou‏ علا tS‏ اجك Ad sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
حياة اللغات ومستقبلها مرهونة بمدى تجاويها مع التطورات التقنية والعالم الافتراضي» 
وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام اللغات غير 
المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة boosts‏ جهودهم» Dalay‏ 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 


ال 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة في 
(حوسبة العربية والذكاء الاصطناعي) » ويقدمها للقارئ العربي» وللجهات الأكاديمية؛ 
للإفادة منها في مناهج التعليم والبناء عليه» وهذه الكتب السبعة هي: (العربيّة والذّكاء 
الاصطناعيٌ؛ تطبيقات الذكاء الاصطناعي في خدمة AUI‏ العربية» خوارزميات الذكاء 
الاصطناعي في تحليل النص العربي» مقدمة في حوسبة اللغة العربية» الموارد اللغوية 
تاسوريف اا الآلية للنصوص العربية» تطبيقات أساسية في المعالجحة الآلية للغة 
ال 

ويشكر المركز السادة مؤلفي الكتب» ومحرريهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 
فضاءات المعرفة. 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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د الموارة d‏ ركيزةً أساسيّة لبناء وتطوير أدوات LI‏ الاليّة E‏ 
a EL ABA‏ معبارً من الاسترشاد به في وصف واقع otra‏ 
المُتعدّدة OLSI e‏ والمكان؛ وهي أيضًا وسيلةٌ لتقويم أدوات add NI s M‏ 
أضف إلى ذلك أن توظيف الموارد a‏ في الصّناعة المُعجميّة وتطوير أدوات تعليم 
اللّغة قد ساعد بصورة كبيرة في المُوائمة بي اللغة الموصوفة ومُستعمليها؛ كا مكّنَ 
هؤلاء المُستعملينَ من الوقوف على إشكالات Ze o‏ والتفكير في الوسائل 
esi‏ ا الها 


pad‏ للقارئ العرب كتاب 0 dl‏ الحاسوية) من سلسلة من اليب الي 
تُعنى بحوسّبة اللغةء آملينَ أن سهم هذه ELL‏ في إثراء المكتبة العربيّ بمصادرٌ داعمةٍ 
o lel s‏ بمُعابكَة اللغات Cel‏ في ميادين البحث والصّناعة sunl‏ وأن 
ó S‏ هذه السّلسلة باكورةً لسلاسل أخرى في ذلك الحقل العلميّ e E‏ 

ولا كان الهدفٌ من هذا الكتاب توجية القارئ العربّ إلى الموارد a‏ الحاسشوبية 
لي EE‏ من استيعاب منطق الآلة في التُحاطي مع البيانات É AUI‏ كبيرة الحجم : a‏ 
دح ا E‏ ا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


٠‏ الفصل الأوّل: الموارد المعجميّة العربيّة الحاسُوبيّة؛ يُعنى بالتعريف بهذه الموارد 
eias;‏ من حيث الشكل وطبيعة المحتوى. PE.‏ مُ AUS‏ رُؤية منهجية 
cU‏ الإفادة من الموارد i iex‏ الحاسوبيّة لا سا الموارد à TE‏ 
ُعالجة id‏ الطبيعية وتطوير صناعة eei‏ العري. 

* الفصل الثاني: انات X AUI‏ عرض هذا الفصلٌ لفهوم المُدوّنات AI‏ 
وأساليب بنائها ومُعا يها LO‏ ومجالات الإفادة منها في ميادينٌ عديدة» تشمل 
الال EUER‏ الطيعةة والكناعة واد M‏ 


ININ هذا الفصل لمحةً عن الحليل‎ Pla V الشّبكات‎ e الفصل‎ * 
qu gei ELI die ixi E eas is i عرضًا‎ g TER 
للدّلالة.‎ NI FINE à NUI cs 


To تطبيقيٌ؛‎ d وهذا الفصل‎ (I eode الفصل الرّابع:‎ e 
"AUS EX dv شالق اوه‎ "I 
HEI ماركوف‎ eii ee I والشّبكات العصييةء وآليّات المُنّجهات‎ 
ذكاء‎ aS الإفادة من هذه الموارد في توجيه الآلة إلى‎ cal e الفصل‎ s; 
بايا‎ UA ind ينهم‎ oL 


* الفصل الخامس: نمذجة TU‏ وهذا الفصل ed‏ تطبيقيّ أيصًا؛ Quis‏ 
بتوظيف الموارد SENT‏ في بناء CAL 7 ze a KE‏ إحصائيّة مثل: 
الحو العددي» والتنعيم. AA m I‏ على مجالات الإفادة من بعض 
هذه الأساليب die:‏ اللغات Tauhi‏ 


A 


Ld 


a` 


a‏ ات Gell N‏ جمد بن zd‏ الأكاديمية والخبرة 
العمليّة في ميادين صناعة assit aal‏ 


نسل الله Jte‏ أن fe,‏ هذا اجه بالذّكر a‏ والأجر الجزيل؛ وأن يجعله من 
العلم الذي x‏ ينفع أصحابّه بعد مماتهم. 


ا 


d 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الفصل الأول 
الموارد المعجميَّة العَرَِيّة الحاسوبيّة 


د. عبد العاطى هوّاري 


١‏ - مدخل إلى الموارد المعجَوية العَرَبِيّة الحاسوبيّة. 

۲- في التعريف بالموارد المعجَيِيّة الحاسوبية. 

-Y‏ الموارد المعجَوِيّة ومعالجة اللغات الطبيعية. 

5 - الصناعة المعجمية الحاسوبية. 

5- الموارد المعجَمِيّة العربية الحاسوبية. 

5- الأفكار البحثية المقترحة في إطار العمل المعجمي الحاسوبي العربي. 
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هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


اا - 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


$2 f dta Ju] da 

يتم التمييز» في إطار الدرس المعجمي (ابن مرادء ۱۹۹۸) « (NAAA cg all)‏ 
(الفهري» (AV‏ بين ثلاثة مجالات تخص ثلاثة مستويات بحثية معجمية متهايزة؛ 
الأول: المعجم الذهني (Mental Lexicon)‏ ويختص بدراسة الجانب الذهني من 
المعجم؛ كاكتساب الثروة اللفظية وتعرّفها وطريقة تنظيمها في الذهن» وآليات توليدها 
eel y‏ والثاني هو المعجم اللغوي (Lexicon)‏ ويقصد به مجموع الثروة اللفظية؛ 
الكلمات والتعابير الاصطلاحية (Idioms)‏ الموجودة لدي مجموع المتحدثين بلغة ما. 
والثالث هو المعجم المصنوع أو المدوّن (Dictionary)‏ ويكون محاولة لتمثيل المعجم 
اللغوي للغة ما في صورة مورد معجمي وهو بذلك عمل ينتمي إلى الصناعة المعجمية 
(Lexicography)‏ ©. 

ويندرج موضوع هذا الفصل تحت إطار المستوى الثالث فيتناول الموارد المعجَويّة 
الحاسوبية؛ مفهومهاء وطبيعتهاء وأشكااء وعلاقتها بمعالجة اللغات الطبيعية. بالتركيز 
على الموارد المعجَمِيّة العربية الحاسوبية» واقعها الراهن» واقتراح تصور لآفاق العمل 
المعجمي العربي الحاسوبي صناعة وبحثا. 


؟- في التعريف با موارد المعجَوية الحاسوبية 

ات دف ل اموب Panli Dual Die‏ ماد واو iis‏ 
في تقنيات الصناعة العجميت أعقبتها ثورة مائلة في المفاهيم والمعتقدات والتقاليد 
المعجمية. فحدثت تبدلات كبيرة في أولويات العمل في هذا المجال تخطيطًا وتنفيذا 
وتحديتا. علاوة على اختلاف غير قليل في الأهداف الصناعية والبحثية. ويمكن أن 
نتصور آثار هذه الثورة في مستويات متعددة”"؛ في تقنيات العمل المعجمى التقليدي: 
منهجياته وإجراءاته وأدواته وبناته. وفي إيجاد أشكالٍ لمعاجم uii dpa‏ 
s‏ طرائق التعامل معها واستعالها وفي توظيفها. وأيضًا في ظهور مجالات بحثية 


١-على‏ أن هناك من يسوی بين المصطلحين Lexicon)‏ و (Dictionary‏ في العمل المعجمي الغربي أيضاء فيستخدمههم مترادفين. 
-١‏ علاوة على بَدّهيات جدوى استعمال الحاسوب في معالجة أي مادة في أي جال معرفي؛ من سرعة وإنجازيه عالية ودقة 
وسعة تخزينية فائقة وإمكانية متابعة التحديث» إضافة إلى طريقة تقديم المادة واستدعائها. 


e un 
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معجمية جديدة» واقتراح إجراءات جديدة للبحث العجمي ومنطلقاته , Ou‏ 
ويذهب بعض الباحثين إلى أن ثورة الحاسوب ل تغير في الطريقة التي sÉ‏ بها البحث 
فحسب» بل إنها أيضًا فتحت GUT‏ لحقول بحثية جديدة تهدف إلى فهم للعقل البشرى 
على ضخامته ود تعقيد. 

وينبغي التمييز بين نمطين من الموارد المعجمية الحاسوبية: الأول: موارد معجمية 
للمستعمل البشري تكون تطبيقا حاسوبيًا pl‏ بذاته» مثل المعاجم الإلكترونية» 
تعرض مادتها في صورة واجهة على شاشة الحاسب» Jed‏ عملية البحث عن الكلمة 
ومعلوماتها اللغوية؛ والآخَر: موارد معجمية تجعل لأنظمة الحاسوب الداعمة لمعالحة 
اللغات الطبيعية» فمستعملو هذه الأنظمة الحاسوبية لا يتعاملون مباشرة مع المورد 
المعجميء بل يتعاملون مع التطبيقات المبنية على هذه الموارد ويكون جزءً من نظام 
أكبر كما في المدقق الهجائي الخاص بمعالج الكلءات أو في المعجم المصطلحي لنظم 
مساعدة المت رحمين. 

-١ Y‏ أشكال الموارد المعجَريّة ا لحاسوبية 

تتنوع الموارد المعجَوِيّة الحاسوبية فتشمل أشكالا متباينة طبيعة» dem;‏ وغاية» 
وشكلا UL‏ تتجلى فيه. ويمكن استعراض أشكال الموارد etel‏ من خلال تصنيفها 
من حيث شكلها الحاسوبي الذي تتجلى فيه» ومن حيث طبيعة المحتوى المعجمي الدلالي 
الذي تقدمه» ومن حيث غاياتها. 

" أشكال الموارد المعجَمِيّة الحاسوبية من حيث الشكل 

i‏ المعجم المقروء ال 

يعد all‏ المقروءٌ PÉN‏ نسخة حاسوبية من طبعته الورقية» أو IEE‏ حاسوبيًا 

للمعجم الورقي/ التقليدي يظهر في هيئة إلكترونية تسمح للآلة/ الحاسوب بالقيام 


Y‏ - وقد حدا كل ذلك jan‏ من تصدّى للتأريخ للمعجم بأن يقسم عمله إلى قسمين: ما قبل الحاسوب (ويروق لكثير من 


CY‏ يحترز البعض على عبارة «المقروء آليا» بقوهم إنه ليس المقصود أن الحاسوب يقرأ المعجم بل فقط أن المعجم في هيئة 
الكترونية تسمح للآلة / الحاسوب أن يقوم بمعالجات Litkowski, 2005) Ule‏ 
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بمعالجات عليها. وإلى جانب تمثيله للمعجم المطبوع فإنه يختلف عنه باحتوائه معلوماتٍ 
لغوية لا تظهر في المعجم المطبوع نظرا لاختلاف طبيعة الآلة عن المستخدم البشري. 

وتاريخيًا م يرتبط نوعٌ من أنواع الموارد المعجَوِيّة الحاسوبية بالمعجمية الحاسوبية قدر 
ارتباط المعجم المقروء GI‏ بها. حتى أن مصطلح المعجمية الحاسوبية نفسه قد ظهر أول 
ما zb‏ على يد (Amsler) Leod‏ من خلال دراسته عن بنية معجم ويبستر السابع» 
وكان يعني دارسة المعجم المقروء OT‏ وقد بدأ المعجم المقروء GT‏ ني الظهور في منتصف 
الستينيات وازداد الاهتام به مع بداية التسعينات من القرن العشرين. ولعل أشهرٌ 
نماذجه معجم لونجان للإنجليزية LDOCE “s po Ll‏ . 

;2 للمعاجم Ife s ul‏ باعتبارها موردًا C3‏ للمعلومات اللغوية المستخدمة في 
Jie‏ معالحة اللغات الطبيعية» وذلك لاحتوائها جل المعارف اللغوية والدلالية Puste-)‏ 
(jovsky & Boguraev, 3‏ . فمن مادته e ILLE‏ اللسانيون الحاسوبيون المعلوماتِ 
اللغوية دلالية وتركيبية وصرفيةء يتم توظيفها في مجال معالجة اللغات الطبيعية» كا أن 
هذه المعارف اللسانية الموجودة في المعجم المقروء آليا تعد مادة ملائمة لاشتقاق قواعد 
للمعارف منها. فلقد كانت نتائج الأبحاث المبكرة في مجال المعجم المقروء آليا مبشرة 
فقادت كثيرين إلى الشعور بأن قواعد معارف ضخمة يمكن أن تشتق بسهولة اشتقاقا 
OI‏ من المعاجم المقروءة (Ide & Véronis, 1994) Ci‏ 


ولقد وجد مطورو النظم المعجمية الحاسوبية والمعجميون الحاسوبيون أن المعجم 
المقروءَ IT‏ لا يفى بمطالب استخلاص المعلومات بالشكل الذي يرضونه فأخذوا في 
كار الأدوات dl e t dE‏ إل ماج RU‏ للتوسيع decas UT‏ صورة اة 
لمعالحة اللغة الطبيعية مباشرة» وتستخدم في ذلك أدوات إحصائية للمفردات وعلاقاتها 
في MRD‏ للخروج بشبكة دلالية تحكم بنيتهاء أو بتحليل كلمات التعريفات المعجمية 
للوصول إلى المعاني النووية التي تحكم بنية المعجم, أو بتحليل التعريفات نفسها وهي 
الإجراءات التي طبقها فريق عمل على معجم لونجمان المقروء آلا لتحويله لمعجم قابل 
للتوسيع UT‏ صالح لتطبيقات معالجة اللغة )1993 (Svensén,‏ 


l- http://www.pearsonlongman.com/ldoce/. 
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* قاعدة البيانات المعجمية 

هى صياغة للادة المعجمية (المداخل المعجمية والمعارف اللغوية المتعلقة مها) في 
ضور acorde‏ با del‏ البنانات من إمكانات ف الزن وال وار 
ا so E sauf oo E Ba‏ ا icd‏ 
قاعدة BUNT‏ المعجمية نسخة من المعجم المقروء N‏ غير أنها نسخة معدلة الأخطاء 
تتجاوز التضاربات الداخلية التي قد تكون موجودة في المعجم المقروء LOT‏ غير أن 
الفروق ces‏ على المستوى التنظيمي المعجمي ليس بالقليل ويبرر الحديث المستقل عن 
كل dee‏ 

ويمكن النظر إلى قواعد بيانات معجمية بوصفها مخزنا هائلا للثروة اللفظية؛ ألفاظا 
ومعلومات متعلقة e‏ مصوغة في صورة منظومية» يمكن توظيف محتواها في بناء موارد 
re‏ أخرى أو برمجيات حاسوبية C3‏ بخص معال حة اللغات الطبيعية. 

وتعد قاعدة بيانات المعجم الإيطالي من الأعمال الأكثر شهرة في سياق الحديث عن 
قواعد البيانات المعجمية؛ فلقد قامت منهجية تمثيل المحتوى المعجمي الدلالي لقاعدة 
البيانات المعجمية الإيطالية على مقولات التوجه العلائقى (Relational Approach)‏ 
في تمثيل المعنى. فقد زخرت قاعدة بيانات المعجم الإيطالي بالعلاقات على أشكالها 
المختلفة» وهو الأمر الذي لم يكن معهودا في معاجم التعريفات» للدرجة التي جعلت 
بعض الباحثين يشير إلى إمكانية دمج المعجم والمكنز. 

" أشكال الموارد المعجَرِيّة من حيث طبيعة المحتوى المعجمي ومنهجية تمثيله 

يمكن تصنيف الموارد المعجَمِيّة من حيث طبيعة المحتوى المعجمي الدلالي ومنهجية 
تمثيله إلى قسمين: الأول للموارد المعجمية» وهي الموارد التي تركز على جوانب المعنى 
والاستعمال؛ والقسم اا الالائية dao y‏ ونا eel a dl‏ 
التي يركز محتواها على الجوانب المتعلقة بتمثيل الأبنية التركيبية للوحدات المعجمية 
وتنميط سلوكها التركيبي. 
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9 الموارد المعحمية 

تركز الموارد Sell‏ على تمثيل المعنى من خلال إحدى منهجيتين: 

- الموارد zal‏ التعريفية: (Dictionary)‏ وهى التى تعتمد منهجية التعريف 
(Lexical Definition) amall‏ في تمثيل المعلومات والمعارف اللغوية. 
ويمكن هنا أن نضرب مثالا على هذا النوع بمعجم لونجمان للإنجليزية 
المعاصرة :(Longman Dictionary Of Contemporary English)‏ وهو 
معجمٌ قد أخذ اعتناءً من قبل اللسانيين واللسانيين الحاسوبيين”2. فالحديث 
عن معجم لونجان لا يعد حديثا عن تجربة معجم بقدر ما هو مراجعة لسلسلة 
من الدراسات المعجمية الدلالية لفريق عمل متكامل من المتخصصين. 
وقد أقام المعجم منهجيته في تحليل المحتوى المعجمي الدلالي وتمثيله على فكرة 
أساسية» هي استعمال قائمة كليات ias‏ بمعان محددة» يتم تعريف بقية 
نموذجا مميزا للتطبيقات الحاسوبية في مجال معالحة اللغات الطبيعية من خلال 
المعلومات التى يقدمها مثل عمله تراتبية cele SU‏ والتصنيف «dio I‏ وبيان 
حقول الاستعمال» وتوضيح القيود الانتقائية للوحدات المعجمية المعرّفة. 
لغة التعريف بالتحكم في مفرداتها وأبنيتها. غير أن كل هذه المزايا التي وجدها 
الدارسون في معجم لونجمان ل aa‏ من نقد توجه إلى منهجيته النظرية وتطبيقاته. 

- موارد Gaeh‏ علائقية شبكية: وهي في فلسفة بنائها وتمثيلها للمعنى أقرب 
إلى المكانز اللغوية التي تعتمد في بناتها على مقاربة العلاقات الدلالية القارة 
في المعجم اللغويء غير أنها توظف تقنيات العمل الحاسوبي في توثيق عرّى 

-١‏ أصبح من المعتاد في مجال معالجة اللغة الإنجليزية ÚT‏ الاعتماد على مادة معجم لونجمان في نسخته الالكترونية. وما 
ينبغي إيراده هنا أن للمعجم نسختين: الأولى ورقية» والثانية حاسوبية في صورة معجم مقروء ÚT‏ وأن بين النسختين 
كثيرا من الاختلافات. 
Y‏ - تتكون هذه القائمة من ٠‏ كلمة» إضافة إلى ٠٠١ ٠١‏ مشتق من مشتقاتها. 
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ويمكن أن نمثل على هذا النوع من الموارد بشبكة الكلمات WordNet‏ » وهي 
تقوم على أسس نفسية لسانية بالأساس وتعتمد في تنظيمها على فكرة ا مكنز» 
وتحاول شبكة الكلمات تمثيل المادة المعجمية SE‏ يشابه طريقة تنظيم العقل 
البشريٌّ ESU‏ المعجمية «فالبنية ال هرمية التي تطور عن طريق نظريات تنظيم 
المعرفة البشرية تقدم مادة مفيدة لمشروعات أبحاث الذكاء الاصطناعي. 
ورغم كل ما في شبكة الكلمات من مزايا وطاقات تعد بتطبيقات في Jle‏ معالجحة 
اللغات الطبيعية؛ فإنها لا تعدم من يرى فيها نقائص مثل صعوبة الربط القائم بين أقسام 
الكلام المختلفة» وقلة التعبيرات الاصطلاحية المدرجةء ناهيك عن أن تصنيفها لم خطط 
بشكل شامل ومحكم. 
٠‏ موار د مُعجَويّة دلالية (Lexical Semantic Resources)‏ 
تنطلق M‏ المعسجّوِيّة الدلالية من نظريات معجمية دلالية» فتطبق بعضا من فروضها 
النظرية على معاجم اللغةء فتقدم تمثيلا دلاليا وتركيبيا للوحدات المعجمية. وهي موارد 
مُعجَوِيّة دلالية Gag‏ إلى تمثيل الأبنية التركيبية والسلوك التركيبي للوحدات المعجمية 
d]‏ بعالب colt JE od ILU cg gend td‏ لحيو cil QUI Lo a‏ 
وتقوم بتصنيفها تصنيفا تركيبيا UNS‏ في آن. وهذه الموارد لها أهميتها الكبيرة في تطبيقات 
معالحة اللغات الطبيعية ]5 Ls]‏ أعمق A‏ وألصق بالسياقات التركيبية المختملة للكلمة. 
ومن أمثلة ذلك: شبكة الأطر (FrameNet)‏ وشبكة الأفعال eo  (VerbNet)‏ الأبنية 


الحملية (PropBank)‏ 
وسنمثل لاثنتين منهما dee‏ 
شبكة الأطر 


تعد شبكة DAI‏ المعجمية الدلالية من أهم الأعمال في Jue‏ بناء الموارد Kekel‏ 
الدلالية على مستوى التأسيس النظري خصوصا؛ إذ قد تم بناؤها على هدى من نظرية 


-http://wordnet.princeton.edu رابط المشروع للاطلاع:‎ -١ 
ويغطي‎ http://framenet.icsi.berkeley.edu ورابطه على شبكة الإنترنت هو:‎ FrameNet عنوان مشروع‎ -Y 
المشروع عدة لغات إلى جانب الإنجليزية وهي الألمانية واليابانية والأسبانية.‎ 
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فيلمور (Fillmore)‏ عن نحو الحالة (Case Grammar)‏ والأدوار الدلالية/ المحورية؛ 
فالأدوار الدلالية (Semantic Roles)‏ تلعب دورا مهما في هذا العمل. وتعد شبكة 
الأطر موردًا معجميا دلاليا غايته بالأساس تنظيم المعارف المعجمية على أسس تركيبية 
ودلالية لتحقيق أغراض المعالحة الآلية للغات الطبيعية» إضافة إلى الجوانب النظرية 
المتمثلة في التحليلات المعمقة للبنية المعجمية الدلالية للمعجم. 


والإطار الدلالي عبارة عن بنية عامة تتكون من مجموعة من العناصر؛ تبدأ بتعريف 
عبارة عن توصيف للمفهوم أو المعنى» ثم مجموعة من العناصر (ويمكن النظر إليها 
باعتبارها تحقيقًا لفكرة الأدوار الدلالية كا في نظرية نحو ا حالة لفيلمور) هذه العناصر 
منها ما هو أساسي ومنها ما هو غير أساسي. ويكون دور العَنونة الدلالية هو ربط كل 
قراءة دلالية لوحدة معجمية بالإطار المناسب له من الأطر المحددة سلفاء إضافة إلى 
تحديد العناصر الأساسية والعناصر غير الأساسية لكل كلمة. ويتأسس المشروع على ما 
يقرب من ٠٠١‏ إطار معجمي دلالي يتم تصنيف الوحدات المعجمية من خلاها. 

بنك الأبنية الحملية (PropBank)‏ 

يتوجه مشروع بروب-بانك إلى تحليل البنية الحملية (Argument Structure)‏ 
للفعل والمشتقات في عدد من اللغات (الإنجليزية والعربية والصينية والهندية. (وغايته 
توصيف السلوك التركيبي مربوطا بالدلالة/ المعنى لكل فعل أو مشتق» ومن جهة 
أخرى إنجاز تصنيف معجمي دلالي وتركيبي لمعجم كل لغة. 

ويتم التحليل )2005 (Palmer,‏ بالبدء بتحليل الدلالات الممكنة لكل فعل أو 
مشتق من خلال أمثلة محللة تركيبيا تحليلا شجريا وتقديم تعريف مبسط له وتحديد 
البنية الحملية الممكنة مع كل دلالة وتوضيح المكملات الجملية الممكنة مع ربط الجمل / 
العبارات الموجودة في المدونة بالتحليل» فتصبح المخرجات النهائية عبارة عن تحليل 
معجمي دلالي لأفعال ومشتقات المدونة يقدم توصيفا للسلوك التركيبي للفعل أو 
مشتقاته وفصل متعدد المعنى على أسس تركيبية ودلالية. 
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Y‏ , 7- روافد تطوير العمل المعجمي الحاسوبي 

تسترفد الموارد المعجَوِيّة الحاسوبية رافدين يتشاركان في تطويره؛ الأول رافد 
لساني والثاني رافد حاسوبي. ege‏ في هذا السياق أن نتناول الرافد اللساني للتطوير. 
فالعمل المعجمي الحاسوبي يرتبط في عمق تحليله بالتأسيس النظري اللساني وهو ما 
يمكن ملاحظته» على سبيل المثال» في تأثير أعمال بيث ليفين Levin‏ المتعلقة بالتصنيف 
المعجمي الدلالي للأفعال («ء_۱۹۹۳) في بناء الموارد ael‏ الحاسوبية وفي تنظيم 
محتواها الدلالي والتركيبي. 

وني هذا السياق نعرض لنموذجين في| يتعلق بالتنظير اللساني للتطوير في مجال بناء 
الموارد المعجَوِيّة الحاسوبية؛ هما نموذج معجم ميلتشوك, والثاني نموذج نظرية المعجم 
التوليدي لبوسطيوفسكي”". 

" نمو ذج معجم ميلتشو ك (Explanatory Combinatorial Dictionary)‏ 

يمكن النظر إلى تصور ميلتشوك للمعجم باعتباره أحد أنضج المنهجيات التي 
قدمت في العصر الحديث فيا يخص تمثيل البنية الدلالية لمعجم؛ وذلك لارتكازها على 
تصورات لسانية نظرية معمقة» دون تجاهل لما تقدمه نتائج تحليل المدونة النصية. 

وتركز منهجية معجم ميلتشوك على جوانب المحتوى: فهو معجم لتمثيل المعنى 
وتوضيح آليات تآلف الوحدات المعجمية. ويقوم تمثيل معنى الكلمة في المعجم على 
محورين يسميههما الوظائف المعجمية؛ هما العلاقات الرأسية Paradigmatic Func-)‏ 
f) (tions‏ العلاقات الدلالية بين الوحدات المعجمية) والعلاقات الأفقية Syntag-)‏ 
(matic Functions‏ (تآلف الكلمة مع جاراتها في العبارة أو الجملة) وذلك بغرض 
تتميم التوصيف الدلالي للكلمة المدخل. 

وتتكون بنية تعريف الوحدة المعجمية في تصور ميلتشوك من مجموعة من القوالب 
c(Mel"cuk, 1988 & 1995) is al‏ هى: المكونات النموذجية للتعريف. وهى 
غيارة عن قالب'ثايت ب لالتراديه فى آي مريت والكرنات العامة رهن الى NC‏ 


- ينبغي الإشارة إلى أن نموذج ميلتشوك قد صار بالفعل تطبيقيا واقعيا متحققاء غير أن نظرية بوسطيوفسكي ظلت‎ -١ 
مختلفة في تحليل اللغة وتطبيقات معال جة اللغات الطبيعية.‎ co Ge تم الإفادة منها في‎ D] s قيد التحقيق»‎ - OYI حتى‎ 
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الفئة التركيبية التي تنتمي إليها الوحدة المعجمي. والمكونات الضعيفة» وهي أجزاء من 
التعريف يمكن الاستغناء عنها في بعض السياقات الدلالية. والمكونات الاختيارية 
للتعريف وهي التي يمكن تحييدها في التعريف» وإنا يؤتى بها فقط لتسييق الكلمة. 
والقيود. وهي السمات التي تميز بين تعريفات الكلمات. والمكونات الجاهزة» ويقصد بها 
السمات المصوغة قبلا بحيث تضاف للتعريف بوصفها وحدات تعريفية سابقة التجهيز. 

gl;‏ أهمية هذا العمل من كونه تطبيقا لنظرية لسانية دلالية من جهة» ومن كونه 
يتوجه إلى تطبيقات معالحة اللغة GI‏ من جهة أخرى. كا أنه قد قدم تأسيسًا نظريًا لبنية 
المعجم يقوم على أسس دلالية» إضافة إلى ما قدمه في مجال الوحدات المعجمية متعددة 
الكليات. 


" نموذج المعجم التوليدي لبوسطيو فسكي (Generative Lexicon)‏ 

تصنّف نظرية بوسطيوفسكي بوصفها نظرية في الدلالة المعجمية الحاسوبية للكلمة» 
وهى محاولة لاقت قبلا واستعصياا ف الأرساط اللسانية الحاسوبية باعتبارها نظرية 
لتمثيل المعرفة المعجمية» SAE td‏ المنجز في التصورات السابقة؛ مفيدة من النظريات 
السابقة. 

ينطلق بوسطيوفسكى (Pustejovsky,1995)‏ من نقد سكونية (استاتيكيّة) 
المقترحات السابقة في TUM‏ المعجم» فقد رأى أن الأفكار التي بنيت عليها المعاجم 
أفكار سكونية في تمثيلها ا محتوى المعجمي الدلالي» يتم سرد الدلالات فيها دون روابط 
قوية ودون التركيز على الطاقة التوليدية الكامنة في الكلمات. فكان التفكير في أن je‏ 
المعالجة تفاعلية تمكن من التعامل مع الكلمات في سياقات جديدة أو مختلفة عم| هو وارد 
في المعجم» وني المقابل يقترح تصورا حركيا تفاعليا يمكن أن يسهم في iele‏ الاستعمال 
الإبداعي/ المتجدد للكلمة في نصوص جديدة وفك الالتباس. فالكلمة يتحدد معناها 
حسب السياق» والسياقات التى (قد) ترد فيها الكلمة سياقات لا نهائية» فلا يمكن 
خا اما امكها as. JE‏ عل all‏ ن حبك معام الج الخدت ell‏ 
ولكن يمكن السيطرة على آلية توليد دلالة الكلمة في السياقات / أنماط السياقات. 


اا ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—U‏ 


ويفترض بوسطيوفسكي» في سبيل تمثيل الطاقة التوليدية للكلمة» أربعة أبنية لتمثيل 
الوحدة المعجمية: 
* البنية ا حملية CArgument Structure)‏ وهى تتعلق بالتحقق التركيبى للكلمة 
(عدد المحمولات وأناطها التي تتحقق معها في المستوى التركيبي). 
° البنية الحدثية (Event structure)‏ تعين نمط الحدث في الفعل» وهو يعد بمثابة 
تصنيف لطبيعة الفعل أو المشتقات الفعلية لتقديم خصائصها الجهية. 
* بنية السمات (الكواليا) (Qualia structure)‏ تقدم السات الأساسية للوحدة 
المعجمية التي تتحكم في آليا تراكبها مع الوحدات المعجمية الأخرى. 
* بنية التوارث (Lexical inheritance)‏ وتتعلق بالبنية الكلية mm‏ لغة» فتحدد 
الطرائق التي تترابط بها الكلمات دلاليا واشتقاقيا فيا بينها في داخل المعجم. 
ويمكن النظر إلى تصور بوسطيوفسكي باعتبارها التصور الأوجه. حالياء في مجال 
تمثيل المعارف المعجمية الدلالية بغرض الاستخدام في Jle‏ معالجة اللغات الطبيعية 
لكونه تصور ديناميكي للمعجم يتصدى للمعاني أو الاستعالات الجديدة KASSE‏ 
فلقد أصبح التركيز موجها إلى الطاقة التوليدية للوحدة المعجمية وكيفية تآلفها أو تراكبها 
مع وحدات معجمية آخرى» لا إلى مجرد سرد المعاني المختلفة للكلمة» والتفسير التوليدي 
للتآلف الممكن بين المركبات الاسمية. 


Y‏ 7 الموارد المعجمِيّة ومعالجة اللغات الطبيعية 

ترجع أهمية الموارد المعجّويَّة لمجال العمل في معالجة اللغات الطبيعية» أبحاثا 
وتطبيقات» إلى طبيعة المعلومات التي يشتمل عليها المورد المعجمي. والموارد المعجمية 
رغم احتوائها أنماطا مختلفة من المعلومات التوصيفية لمفردات وتعبيرات؛ لا يزال 
قاصرا عن تلبية متطلبات معالجات اللغة الطبيعية» لذا فإننا نجد كثيرا من الأدبيات 
التي تصدت للحديث عن المعجم في علاقته بمعالجة اللغات الطبيعية تتصدرها جملة 
مثل إن المعجم ليعد عنق الزجاجة بالنسبة لمعالجة اللغات الطبيعية والذكاء الاصطناعي 
.CZernik, 1991)‏ 


—-YNY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EN‏ ااا 


-١,*‏ أنواع المعارف اللغوية bs‏ معالجة اللغات الطبيعية 
ا a‏ 
بحثا وتطبيقات» ويرون أن المعاجم المقروءة Cf‏ قد غدت موردًا (gola‏ للمعلومات 
المستخدمة في معالجة اللغات الطبيعية لاحتوائها على كمية ضخمة من المعارف المعجمية 

والدلالية المجموعة عبر سنوات من الجهد المعجمي Véronis,1994)‏ & 106). 

وتتنوع المعارف اللغوية التي تطلبها أنظمة معالجة اللغات الطبيعية في الطبيعة وفي 
O gall‏ وهذه المعارف يقوم المعجميون بجمعها وتحليلهاء وتمثيلها في سرد معجمي» 
وإدراجها في بتّى مداخل المعجم بطرائق منظومية منضبطة يمكن للحاسوب أن يتعرفٌ 
عليهاء إضافة إلى تصنيف الوحدات المعجمية علي أساسها لتوظيفها في أنظمة معالحة 
اللخة الطيعة. l‏ 


-Y ۳‏ متطلبات معالجة اللغات الطبيعية في الموارد المعجوية 

َة مُتَطَلّبات لأنظمة معالجة اللغات الطبيعية» ينبغي أن تتوافر كلها أو 
بعضها في الموارد المعجَويّة حتى يمكن الإفادة منها GT‏ ويمكن تصنيف 
هذ المتطلبات في مجموعتين؛ الأولى هي متطلبات لسانية وتتعلق بطبيعة 
Coo Oo‏ الهم رحن ss GL US‏ لف dla EE‏ هن الات 
ارا وتساق AS‏ الذي رفن عله oa]‏ الات نا بهل إجرادات 
إمكانية استخلاصها واكتساما AB‏ 

" المتطلبات اللسانية 

E‏ كات الدترى tese let‏ وليك باعل الك قي عدون معجمى أمثلّ للغة 
وتطبيقات معجمية حاسوبية FSÍ‏ دقة Adel,‏ ويحكم درجة عمق la‏ المحتوى 
اللساني مقدار التحليل المعجمي الدلالي للبنية الدلالية للمعجم» celà "rw‏ وقدرته 
على تمثيل اللغة. والمتطلبات اللسانية التي يرنو إليها العمل اللساني الحاسوبي هي تلك 
المعلومات التي تمكن من إنجاز المهام الآتية آليا: ۰ 


-١‏ يحدد بوجريف Bran Boguraev‏ وتيد بريسكو Ted Briscoe‏ المعارف اللازمة لأنظمة معالحة اللغات الطبيعية 
بأنها: المعارف النطقية (الفونولوجية) والصرفية والتركيبية والدلالية والبرجماتيّة. 


3 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


٠‏ تحليل اللغة واكتسابها ET‏ بها تتيحه البرامج الحاسوبية من أدوات تحلل الصوت 
والحرف والكلمة والجملة والنص. ولا يخفى هنا أهمية الموارد المعجّمية 
في إنجاز تحليل الجوانب المرتبطة بالدلالة ابتداء بالكلمة ثم الجملة فالنص. 


e‏ توليد اللغة: ويقصد به تمكين البرنامج الحاسوبي من توليد اللغة؛ كلمات وجلا 


وعبارات تحمل دلالة. 
٠‏ فهم اللغة: وهو موضوع Jes‏ إلى اللسانيات الحاسوبية عن طريق ازدياد 
pleal‏ به في مجال الذكاء الاصطناعي. 


- وومكوها ل نكل عل نوكيب الواره العتي ل e e‏ 
بقاعدة المعارف المعجمية. |5 d‏ إحدى التطبيقات التي توظف الموارد 
المعجَويّة وأكثرها تطورًا وأعقدها بنية فمتطلبات بنائها المعجمية 
والحاسوبية- خصوصا المعجمية - أكبر من تلك المتطلبات التي يحتاجها 
ESI el‏ ا 9 Does did‏ موارد 
المعلوماتية الحديثة وموارد معالجة اللغات. فيحتاج بناءٌ قاعدة معارف إلى 
كمية كلمات وتعبير ات ضخمة منظمة ومصنفة تصنيفا e pi RR‏ على تجلية 
أبنيتها الدلالية والتركيبية» هذا التصنيف يوجد في الموارد المعجَمِيّة الأخرى 
صريحا أو ضمنيًا في بنية التعريف المعجمي» كا «تحتاج إلى بيان لنسب تردد 
الاستعهالات الخاصة بكل كلمة» وبيان الروابط الحلية بين الدلالات: 
معاني ومفاهيم ومترادفات وفروقا لغوية» وتبيان الروابط بين أقسام الكلام 
والتعريفات» والتصنيفات الفرعية )2001 .(Jarmasz & Szpakowicz,‏ 
وهناك أنواع من المعلومات يجب أن تتضمنها قاعدة المعارف وقد لا تضمن 
في المعجم المقروء آلياء وهي الجوانب السياقية للوحدات المعجمية مقدمة 
بشكل موسع. والمعارف الموسوعية (غير اللغوية) )1991 (Véronis,‏ 

ولا شك أن طبيعة المعلومات ومنهجية تقديمها لما الأهمية الكبرى في هذا السياق» 
لذا يعد تطوير منهجيات بناء الموارد المعجَوِيّة تطويرًا لمجال العمل GLUI‏ الحاسوبي كله. 


-١‏ يعد البعض قواعد المعارف المعجمية أحد أشكال الموارد المعجمية. 


ا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


" المتطلبات الحاسوبية 

Gl‏ المتطلبات المتعلقة بالشكل (اللغوي الحاسوبي) فتتوقف عليها درجة صلاحية 
النصوص المعجمية للمعالجة الحاسوبية تعرّفا واستخلاصا. فكلا كان الشكل المقدم 
من خلاله هذه المعلومات مطردا ومنتظ) سهل ذلك في التناول الحاسوبي هذه المادة 
وتوظيفها في العمل اللساني الحاسوبي. 

ومن هذه المتطلبات ما هو حاسوبي كالشكل الذي تخزن فيه الموارد المعجَويّة نفسها كأن 
يتخذ المورد المعجمي شكل المعجم المقروء LO‏ أو قاعدة بيانات معجمية أو غير ذلك. 

إضافة إلى طريقة تمثيلها في صورة نص معجمي تقليدي أو شبكات دلالية. 

على أنه يمكن عرض جانب من السات التي ينبغي أن تتوافر في الور د المعجّميَ كي 
يكون أكثر صلاحية وفاعلية لدى المعالجة الحاسوبية» ويمكن اعتداد هذه السات من 
معايير الحكم على درجة صلاحية مورد مَعجَمِيٌ للمعالجة الحاسوبية: 


٠‏ التحليلية: أي قابلية مادة المورد المععجمي للخضوع للتحليل سواء التحليل على 
مُستوى الكلمة آم التحليل على مُستوى الجملة» وهو ما يعني وجود قواعد 
تركيبية مسبقة للتحرير تحكم عمل محرريه. 

* التوليدية أو التركيبية (القابلية للتوليد): ob‏ يبنى التمثيل المعجمي في المورد 
المعجمى من وحدات ذرية (Atomic units)‏ تمثل الوحدات eal‏ في البنية 
الحجمية الدلالية» بحيث تكن من تعرف وتوليد الجوائب المطردة داخل البنية 
الدلالية المعجم. ومثال ذلك معجم لونجان الذي اقتصرت تعريفاته على 
استخدام M‏ كلمة تم اختيارها على أساس الشهرة والبساطة. وهو المعيار 
الذي تفضل معظم التطبيقات في مجال اللسانيات الحاسوبية وأنظمة معالجحة اللغة 
الإنجليزية آليا؛ أن تعتمد عليه وتتخذه موردها المعجمي. وذلك لعدة أسباب 
أهمها التزامه بقائمة كلمات لا يتجاوزها في التعريف. m‏ أمر ذو جدوى كبيرة 
في تطبيقات معالحة اللغات الطبيعية» لأن قائمة الكلمات التعريفية تجعل من 
الممكن التعامل حاسوبيا مع النصوص التعريفية من خلال التحليل» والتوليد 
والفهم: فالفكر المعتمد على تذرية المكونات أكثر اتساقا والفكر الحاسوبي. 


—-Yo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


٠‏ النظامية (Systematic)‏ وتعنى هنا عرض المادة في اتساق» لا تضارب بين 
مكونانها لمر a LM‏ المسجمية مضدر ترق cola pla‏ الدلالية adl‏ 
غير أن معلوماتها الدلالية يجب أن ls e‏ نسقيًا )2005 Litkowski,‏ 
وتتجلى النظامية أو النسقية أيضا في الصياغة البنيوية للمعجم: وتعني الصياغة 
البنيوية للمعجم صياغة JË‏ الاطرادات المعجمية الدلالية» وتُظهر العلاقات 
بين الكيانات الدلالية في المعجم. وتعد (النظامية أو النسقية) أهم متطلبات 
المعالجة الحاسوبية لمحتوى المعجم. 
Y Y‏ توظيف الموارد eral‏ في Ue‏ معالجة اللغات الطبيعية 
وتظهر أهمية الموارد المعجَمِيّة لدى الحديث عا ينتج من تطبيقات معجمية في جال 
تطبيقات معالجة اللغة الطبيعية» مثل البرامج المكتبية (كمعالج الكلمات) وتحليل 
الكلام؛ وتركيبه» والتلخيص الآلي» والفهرسة» واستخلاص المعلومات» والترجمة 
الآلية» والتحليل التركيبى KE‏ وغيرهاء إضافة إلى العون الذي يمكن أن تقدمه 
المعجمية الحاسوبية في NE Je‏ اللغات (في اختيار المادة المقدمة» وطرائق تقديمها 
بتقنيات تفاعلية)» وفي JU‏ العمل المصطلحى» كإنشاء بنوك المصطلحاتء والمولدات 
cella SI‏ والأنظمة اة ولقل تعددت apad caen cis asl‏ 
حتى غزت - أيضا - الفلسفاتٍ والعلوم والمعارفٌ المختلفة. 


٤‏ - الصناعة المعحمية الحاسوبية 

ينبغي هنا أن نميز بين مفهومين في إطار العلاقة بين المعجم والتقنيات الحاسوبية: 

الأول: هو المعجمية الحاسوبية؛ ويقصد بها صناعة المعاجم باستخدام تقنيات 
الحاسوب وقدراته في التخزين والتحليل والاستفسارء ابتداء من الاعتماد على coU sal‏ 
المحوسبة والأشكال الحاسوبية للتخزين مثل قواعد البيانات. 

الثاني: هو المعجم الحاسوبي؛ ويقصد به المعجم المبني على أسس مفاهيمية حاسوبية 
تتعدى مجرد استخدام الآدوات الحاسوبية في التحليل أو التخزين أو تيسير الاستدعاء. 
فل بحاي ارو يني taste‏ ارم cyber‏ ولكنه ينتج 
معجًا تقليديًا مُرتديًا الثوب الحاسوى. 


ات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


ويمكن تقديم لمحة عن المساهمات الحاسوبية في بناء معجم فيا يلي: 

يوظف المعجميون الحاسوبيون البرامج والأدوات الحاسوبية في إجراء عمليات 
الجمع والاكتساب والإحصاء والفهرسة والتحليل والتصنيف. ثم يأتي دور المعجميّ 
الذي يقوم بعمليات تحليل النصوص أو السياقات To‏ أو التعبير 
للتوصل إلى الدلاللات» ثم تصنيفها إلى دلالات مركزية ودلالات هامشية ودلالات 
مجازية» ثم يقوم بالعنونة. 

تنظيم المادة وتخزينها حاسوبيا: فتحول المادة المعالجة إلى صورة قاعدة بيانات 
معجمية تمهيدًا لاستخلاص مادة المورد/ الموارد المعجمية منهاء وللحاسوب الدور 
الأعظم في تنسيق وتنظيم المادة. ويذكر فريق عمل معجم «كوبيلد» (COBUILD)‏ 
للحاسوب. في هذا الجانب من تقنيات العمل» أنه قد قام بفرز الكلمات بطرائق متنوعة 
لتصل المعلومات الخاصة بكل كلمة إلى فريق من المحررين والمؤلفين الذين يقومون 
بدورهم بدراسة هذه الكلمات لإنشاء ملف مفصل لعانيها واستخداماتها في قاعدة 
بيانات معجمية لتصبح بالتالي المصدر الأولى لعائلة من الكتب. إضافة إلى وجوب ربط 
معلومات قاعدة البيانات بنصوص من المدونة )1996 (Sinclair,‏ 


وتستعمل قواعد البيانات في توحيد المعلومات بإيكال توليد المعلومات المتشامة إلى 
الحاسوب وهو ما قد التزمه مشروع معجم كوبيلد إذ أوكل إلى الحاسوب توليد «المطلع 
التعريفي» لكل معرف من المعرفات وهو ما أدى إلى إحكام لغة الشرح وضبط محتواه 
بناء على منهجية معتمدة في معالجة الشروح )1996 (Sinclair,‏ كما يوكل إلى الحاسوب 
أيضًا مهمة إجراء الإحالات Reference)‏ ين وضبط ما التزم 
E LEE‏ د الو ا 

-١ E‏ مراحل بناء المعجم الحاسوبي 

2 التصميم 

تعد مرحلة تصميم المورد المعجمي المرحلة الأولى في صناعة العمل المعجمي» فيها 
يحدد المعجميون طبيعة موردهم المعجمي وأهدافه؛ أهو معجم يستهدف المستعمل 
لمادته» إضافة إلى الشكل النهائي الحاسوبي الذين ينوون له أن يخرج فيه. 


-YN- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


" التحليل المعجمي الدلالي 
٠»‏ التحليل الصرفي 
يمكن النظر إلى التحليل الصرفي في العمل المعجمي باعتباره مستويين: 
الأول: هو مستوى التحليل الشكلي ويقصد به التحليل إلى جذر وساق» وإلى جرد 
ومزيد. وهذا النوع من التحليل مهم في تحليل بنية المدونة النصية بغرض تخطيط IKAI‏ 
العامة للعمل المعجمي المزمع إنتاجه. 
الثاني: هو مستوى التحليل المعجمي الدلالي للكلمة؛ ويقصد به من وجهة نظر 
المعجمى تجلية علاقاتها الاشتقاقية الدلالية ببقية أفراد أسرتها الدلالية با يحقق تمثيل 
البنية المعجمية الدلالية في أول مستوياتها؛ المستوى الصرفي. وتتجلى أهمية المستوى 
الصرني في تحليل المحتوى المعجمي الدلالي للوحدة المعجمية فيا يلي: 
- ضبط المحتوى الصرفي للوحدات المعجمية الاشتقاقية وتعميقه. وبالتالي ضبط 
طريقة تمثيلها في صورة تعريفات معجمية» عن طريق تنميط المعرّفات من 
الوجهة الصرفية» وهو أول خطوات ضبط لغة التعريف. 
- تدقيق تذرية المحتوى الدلالي وتشريح طبقات المعنى» باعتبار الصرف هو الطبقة الأولى 
من طبقات الدلالة» وهو الأمر الذي سيكون له تأثيره في تعديد المعنى وتتبع تدرجه. 
- ضبط العلاقات الاشتقاقية ببيان الأصل والفرع» وآليات الاشتقاق الدلالي» 
وبالتالي ضبط العلاقات الدلالية الموازية. (JS‏ ذلك يؤدي إلى تعميق صياغة 
البنية الدلالية للمعجم وتجليتها من خلال التمثيل الدلالي؛ بضبط الاطرادات 
الصرفية الدلالية في المعجم لتحقيق الكفاية التفسيرية [YY]‏ 
— بناء قائمة المعجم البنية الكبرى c(Macrostructure)‏ وبناء المدخل البنية 
الصغرى (Microstructure)‏ وتنظيم معلوماته» وتوظيف العلاقات الاشتقاقية 
في تجلى البنية المعجمية»ء الدلالية. 
- يعد الجانب الصرفي أحد معايير فصل المشتركات اللفظية (Homonyms)‏ عن 
الوحدات المعجمية متعددة المعنى .(polysemous)‏ وبالتالي فإنه يوفر مادة 
ees‏ قك الليس الدلال f‏ 
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* التحليل المعجمي 
ويقصد بالتحليل المعجمي تحليل الثروة اللفظية باعتبارها وحداتٍ معجمية تبني 
felt‏ ارود لی ر د الك ع هار اجان الور 
الي و اا Gat‏ الفجمى اال ف اة الا ر ia‏ 
حيث طبيعتها وطبيعة محتواها المعجمي الدلالي. ومن مهام التحليل المعجمي تعيين 
الصيغة المعتمدة لكل مجموعة تنوعات صيغ (Paradigms)‏ وهو ما يعرف بالتفريع 
أو تحديد رأس لمجموعة تنوعات شكلية لكلمة واحدة من أجل تحديد القائمة المعتمدة 
لكلمات أو مداخل المورد المعجميٌ. 
وتتعاون مستويات التحليل (الصرفية والدلالية والتركيبية) في فحص جوانب 
الوحدات المعجمية» شكلا ومحتوى معجميا دلاليا. ويمكن توظيف نتائج التحليل في 
تنميط المعرفات كا يلي: 
* أناط المعرفات حسب المقولة المعجمية للوحدة المعجمية: وهو التصنيف المبنى 
على التحليل المعجمى الذي يميز صنفين أساسين من الوحدات ال 
الات الج اة والرسيدات qned]‏ سرد sei‏ ر 
نتائج مرحلة التحليل المعجمي أنماط الوحدات المعجمية التالية: َ 
* وحدة معجمية مفردة» وتشمل: 
- الكلمة البسيطة: وهي وحدة معجمية تامة لا يدخل في تكوينها وحدات 
أخرى. 

- الكلمة المركبة أو المنحوتة: وهى الوحدة المعجمية المصوغة - صرفيا - من 
لتر مع كلعل سل Deoa‏ ال كرا ابل ما ااب 
على المستوى الشكلي (هجاء ونطقا)» وعلى المستوى التركيبي (فيكون لها 
قسم كلامي» وتأخذ مواقع تركيبية» وتكتسب حالات إعرابية)» والدلالي. 
ومن أمثلتها: بسمل: «قال بسم الله الرحمن الرحيم»)» درعمي: «منسوب 
إلى دار العلوم». 
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- مختصر: وهو وحدة معجمية, يتم في الاستعال اللغوي الاجتزاء بجزء منها 
عنها فتعاملها الموارد المعجَمِيّة معاملة المدخل المعجمي» وتدرجها في قائمة 
مداخلها. مثل: ES‏ بس البق د 

- الاصطلاح :)1۵1٥(‏ وهو التعبير الذي ebs‏ في الاستعمال اللغوي مرتبط 
الأجزاء باعتباره من المسكوكات اللغوية» ولكن دلالاته لا يمكن توقعها 
من خلال معاني مفرداته؛ لكونه تركيبا ساعيا لا يمكن التعامل معه 
بتحليل مكوناته. ويمثل التعبير الاصطلاحي نمطا معجميًا — 
pabatid‏ العجمية الدلالية. l‏ 

- الاسم المركب: وهو عبارة عن تركيب من أكثر من كلمة على مستوى 
الشكلء يشير إلى مفهوم أو شيء مفرد من حيث المحتوى. وهو تركيب 
تتمتع مفرداته باستقلالية صرفية وتركيبية» ولكنه على المستوى الدلالي 
ينظر إليه باعتباره وحدة مستقلة. ويعد هذا الصنف نمطا معجميًا متميزا 
لطبيعة المحتوى التي تشبه طبيعة محتوى الوحدة المعجمية المفردة» وطبيعة 
ا ی E‏ 

* وأما التصنيف بحسب المحتوى فباعتبار أن الوحدة المعجمية إما أن تكون 
وحدة معجمية لغوية» أو مصطلحية» أو موسوعية .(Encyclopedic Unit)‏ 


وبالتمييز بين آناط الوحدات المعجمية باعتبارها مداخل» يصبح المعجم مجموعة 
من القوائم المنمطة التي يمكن التعامل معها- حاسوبيا -باعتبارها ملفات» لكل منها 
متطلباتٌ لتمثيل محتواه المعجمي» وطريقة لتمثيله. وتظهر آثار التدميط في تمثيل المحتوى 
المعجمي الدلالي في الجوانب الآتية: 

* تسهيل التعامل الحاسوبي مع المعارف AUI‏ المتضمنة في المورد المعجمي؛ OM‏ 
التعامل مع أنماط محددة» يسهل من تحليل النص المعجمي. كما يسهل عمليات 
الإحصاء المعجمي الآلي» وجعل نتائجها أدق وأصدق تعبيرًا عن الظواهر 
المعجمية. 


- 
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* تنظيم العمل عند التحرير» وتحقيق الاقتصاد أثناء عملية التحرير» فالنمط 
الواحد من المعرفات يتم التعامل معه بطرق محددة يستعملها المحرر جاهزة. 

9 يؤدي إحكام النتائج à‏ هذه المرحلة إلى ضبط تصميم قاعدة البيانات المعجمية؛ 
لكون التنميط أحد متطلبات إنشاء قاعدة البيانات المعجمية» التي يتم تصميم 
جداوها على أساس مخرجات هذه المرحلة من التحليل» وتحقيق تمثيل البنية 
ومادة المعجم. 

٠‏ التحليل التركيبى 

ويشمل التحليل التركيبي عدة أمور: 

* تحديد أقسام الكلام: وهو تصنيف مبني على أسس تركيبية» إذ يعتمد مقو لات 
أقسام الكلام معيارًا للتقسيم؛ نظرا للارتباط الوثيق بين المحتوى الدلالي 
والمحتوى التركيبي» ما يجعل من كل قسم من أقسام PASII‏ نمطا متميزا من 
الوحدات المعجمية لاختلاف المعالجة الدلالية ومتطلباتها بين أقسام الكلام 
المختلفة. 
وتعد المقولة التركيبية أقدم المعايير التي تؤثر في تقنية التمثيل المختارة لمعالحة 

* تحليل البنية الحملية (Argument Structure)‏ للوحدة المعجمية التى تظهر 
السلوك التركيبي المحتمل للوحدة المعجمية في الاستعمال اللغوي. 

٠‏ تحليل بنية الحدث © الجهيّة CAspectual Event Structure)‏ وهو جانب مهم 
في توصيف البنية التركيبية للفعل ومشتقاته. وتهتم التصورات النظرية المعجمية 

١‏ - ولعل أشهر تصنيفات بنية الحدث للفعل هي: 
- الحالة وتكون في الفعل الذي يعبر عن صفة لازمة لصاحبهاء مثل: GA‏ جَحِدَ: قل خيره. و تعبر المعاجم العربية 


عن أفعال I‏ بعبارات منها: ما كان. 
- نشاط مثل: جمع» جرب تجريبا. معالجة: مثل: Sd‏ العدد: أخرج جذره» جبّر العظم: أصلحه. 


= العمل مثل جلسء قام. 
- تَحَوَلَ: ويكون في الفعل الذي يعبر عن انتقال الفاعل من حالة إلى حالة» مثل: أجدب المكان: صار مجدباء Gd‏ 


- التحويل: مثل: s pln e fn‏ و تعبر المعاجم العربية عن أفعال التحويل بعبارات منها: جعله» صيره. 


5 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


الدلالية بتوضيح بنية الحدث الجهية باعتبار بنية DIH‏ بنية مركبة» تتكون من 
أحداث فرعية» وأن التوصل إلى هذه الأبنية الفرعية يساعد في توصيف الوحدة 
المعجمية Uo‏ من جهة. (S‏ يساعد في توصيفها تركيبيا با يحدد سلوكها 
التركيبي من جهة أخرى. 
وإذا كانت المعاجم التي تتوجه إلى المستعمل البشري لا تهتم بتوضيح نمط بنية 
الحدث فإن ذلك يعود إلى أن هذه المعاجم مقدمة للمستعمل البشري الذي يمكنه- 
بالسليقة- تركيب المفردات تركيبا متناغم| دون تنافر دلالي تركيبي» للأنماط التي تأتلف 
والأناط التي لا تأتلف. أما المعاجم الحاسوبية التي تجعل MS‏ أهدافها أن تكون 
موردًا للمعلومات المعجمية الدلالية للتطبيقات الحاسوبية فينبغي أن |a‏ أناط أبنية 
de etos‏ آنا لقصل ف ذلك التفصيل o e AM‏ التحليل Syd sA‏ 
المعجَويّة ولكن فقط يشار إلى الحدث الأبرز في بنية الحدث. ويتوقف اعتماد المورد 
المعجمي على أنماط دون غيرها على طبيعة مقاربته وأهداف مورده المعجمي؛ وذلك كله 
في إطار التصور النظري الحاكم للعمل والموجه له. 


٠‏ التحليل الدلالي 

في مرحلة التحليل الدلالي يتم التعامل مع ظاهرة تعدد المعنى وما تستدعيه من 
قضايا أخرى مثل المجاز والاستعارة» وتمييز المشترك اللفظى عن متعدد المعنى. كا 
يشمل التحليل الدلالي الجوانب التالية: تصنيف الكلمة حسب حقلها الدلالي الذي 
تنتمي إليه. واكتشاف العلاقات الدلالية التي تقع الكلمة طرفا فيها. 

إضافة إلى تعيين قيود الانتقاء (Selection Restrictions)‏ للكلمات. إذ تمثل القيود 
الانتقائية أهمية كبيرة لأنظمة معالحة اللغات الطبيعية إذ يحاول المعجمى فيها محاكاة 
الال ا E‏ ی ون TESTE‏ 
زع تلاك ال a‏ وله التألين؛ لذا فإن الموارد desee‏ التي تستهدف أنظمة 
intl‏ اللغات الطبيعية تعتني اعتناء كبيرا بتوضيح el‏ القيود الانتقائية للوحدات 
المعتجمية, 
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walaa ال الل المتوجية التعمدة عل‎ a 
الصياغة الرسمية لمخرجات مرحلة تحليل المدونة النصية. ويظل التعريف- حتى‎ 
الآن- أهم أشكال قثيل المحتوى المعجمي الدلالي» وأهم مصادر المعارف المعجمية‎ 
على مستوى المستعمل البشري والتوظيف الحاسوبي.‎ 

ويختلف التمثيل للمستعمل البشري عن التمثيل للآلة: فالثاني أكثر عمقا وتفصيلاء 
وابتعادا عن cal Ll‏ الضمنية التي تترك لسليقة المستعمل. ويهدف أي تصور يرو إلى 
تقديم منهجية لتمثيل المحتوى المعجمي الدلالي لأنظمة معالجة اللغات الطبيعية إلى 
تحفيق مجموعة الأهداف التالية: 

للتطبيقات الحاسوبية بصورة جلية. 

* الصياغة المنضبطة للغة التمثيل المعجمى» وتمثيل البنية المعجمية الدلالية 
بالتوصل إلى البنية الذرية لجميع المستويات o‏ يتلاءم مع المقاربات الحاسوبية. 
النظرية للتصور النظري التي يتبناها المورد المعجمي. 

* الإسهام في فك اللبس» بتجميع الأشكال الممكنة للمفردة الواحدة» وتصريفاتهاء 
وفصل المشتركات اللفظية» وفصل المعاني وتمييزهاء وتوضيح القيود السياقية 
والقيود التركيبية» وتصنيف الوحدة المعجمية بحسب الحقل الدلالي» وتجلية 
العلاقات الدلالية» والسمات الدلالية. 


ولعل أهم الإشكالات التي ينبغي أن يؤسس هما نظريا في مرحلة التمثيل» لدى 
أي محاولة لبناء مورد معجمي هي منهجية ثيل متعدد المعنى ومنهجية تمثيل البنية 
المعجمية. 
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Lii *‏ الوحدة المعجمية متعددة المعنى 

من القرارات الأولية ذات الأهمية اتخاذ موقف في طريقة التعامل مع متعدد المعنى» 
وتقنيات تمييز هذه المعاني المتعددة . وطريقة تنظيم المعاني في متن المعجم أو قاعدة 
البيانات» فكما تتباين الموارد المعجّويّة في منهجيات تثيل المحتوى المعجمي الدلاليء 
تتفاوت في وسائل تمييز معاني الوحدة المعجمية الواحدة متعددة المعنى. وتعد وسائل 
التمييز بين المعاني من أهم ملامح منهج التمثيل لأي مورد معجمي؛ لما لها من تأثير في 
التطبيقات التي تقصد إلى فك الالتباس QUI‏ 

وتتركز الإشكاليات التي يوليها المعجميون الاهتمام» لدى معالجة متعدد المعنى» في 
مستوى التمثيل المعجمي في جانبين: 

* تقنيات التمييز بين المعان: ويقصد مما LAE‏ المعجميين المعانى المتعددة للوحدة 
الج رتود أقرية ابال الع ust‏ ال کا ماكر cd‏ 
وقوع اللبس على المستوى الدلالي. حتى إنه لم يعد مقبولا من أي نظرية تتصدى 
IYU‏ المعجمية عموما والدلالة المعجمية الحاسوبية على وجه الخصوص آلا 
e‏ تصوراتها النظرية وإجراءاتها العملية لمجايبة تعدد المعنى تحليلا وتمييزاء 
بحيث يكون ذا خطوة واسعة في سبيل فك لبس الوحدة المعجمية في السياقات 
المختلفة التي من الممكن أن تقع فيها. 

* تمثيل المعاني المتعددة وتحديد الروابط بينها: والمشكلة الثانية التي تفرض نفسها 
في XC‏ تمثيل gll‏ المتعددة هي مسألة تنظيم هذه المعاني وتحديد الروابط 
الدلالية فيه| بينها. وهي قضية قديمة قدم الصناعة المعجميةء فهل تُسْرّد المعاني 
بلا أساس el‏ يعتمد أساس للترتيب وتوضيح العلائق البينية هذه الدلالات. 
s‏ ترتيب الدلالات تعددت الإستراتيجيات المقترحة والمنجزة في هذا المجال» 
يحكم اختيارها طبيعة المعجم وغايته» فتشمل هذه الإستراتيجيات التنظيم 
التاريخي» والمنطقي» والإحصائي الوصفي» والتفسيري. ومن الإشكالات 


١‏ - قدم بو سفينسين Bo Svensén‏ مجموعة من محددات المعنى التي يتم تداولها في تحرير الموارد المعجَوِيّة» وهي: معايير 
صرفية» ومعايير سياقية Syntagmatic‏ تركيبية» ومعايير استبدالية رأسية ply «Paradigmatic‏ بر Úle‏ 
Pragmatic. (Spohr, 2012).‏ 
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المتعلقة بمعالجة متعددة المعنى كيفية تمثيل المجاز والمجاز المرسل: أباعتباره 
دلالة للوحدة المعجمية» أم باعتباره دلالة للها خصوصية» ينبغي التعامل معها 
بطريقة ختلفة عن بقية الدلالات التي تعد المعاني الحقيقية. 


* تمثيل البنية المعجمية الدلالية 

البنية المعجمية الدلالية هي رؤية للمعجم ترى في جوانبه المعجمية الدلالية مقوماتٍ 
مَك من صياغتها صياغةً جلي أنماطها والعلاقات التي تربط بينهاء بحيث يتجل ا معجم 
في صورة منظومية. ولقد ازداد الاهتام بالبحث في بنية المعجم بدخوله في السياق 
الحاسوبي إذ أصبح تحقيق البنية المعجمية مطلبا تقليديا أو أوليا من مطالب الحوسبة 
المعجمية. للدرجة التي دفعت بعض من يؤرخون لظهور مصطلح المعجمية الحاسوبية 
بظهور أطروحة آمسلر (Amsler)‏ التي كان موضوعها فحص بنية تعريفات معجم 
ويبستر للجيب )1980 .CAmsler,‏ 

أما البنية المعجمية في السياق الحاسوبي فقد فرضت على كل من تصدى لاقتراح 
منهجية شاملة لمعجم أن يقدم تصورا متكاملا لآليات هذه المنهجية وإجراءاتها لإظهار 
بنية المعجم محوسبة. فقواعد البيانات المعجمية والأعمال الشبكية فرضت مفاهيمها 
البنائية النسقية على العمل المعجمي. وتختلف الموارد المعجَمِيّة فيم بينها في طريقة صياغة 
هة INS amne‏ لعجي ee Mo reel ASTU‏ الشركة as s pe‏ الكل ات 
وشبكة الأطر والشبكة الذهنية هي أكثر إحكاما في صياغة البنية المعجمية الدلالية من 
المعاجم المقروءة آليا؛ وذلك نظرًا لطبيعة التمثيل المعجمي الدلالي الذي تقوم عليه 
فتشييدها يقوم بالأساس على تمثيل العلاقات المعجمية الدلالية بين وحدات المعجم. 

ويعد تمثيل النظريات المعجمية بنية المعجم الدلالية أحد المعايير التي يُعتمّد عليها في 
تقييم كفاية نظرية» وتفضيل تصور نظري على آخر منافس له. فالبنية المعجمية الدلالية 
ليست ترفا علميا بل مطلبا ضروريا لأية نظرية تتصدى لإنجاز تمثيل للمعجم. 


يقصد بالتقييس المعجمي وضع مواصفات ينبغي تحقيقها في النص المعجمي على 
مستوى بنيته الكبرى وبنيته الصغرى» شكلا cue gut y‏ وذلك لتنميط لغة التمثيل 
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المعجمي بحيث ا العادل ينها ايها aue‏ إرادة معالجة اللغة Úi‏ ومن 
المشروعات التي تبنتها موارد مُعجَمِيّة هو مشروع تقييس المحتوى cdi‏ وطريقة 
تقديمه في الموارد الحاسوبية. ولعل مشروع (- Lexical Markup Frame work‏ 
(LMF‏ هو النموذج الأشهر لتقييس الموارد المعجميّة. ويدف المشروع إلى الاتفاق 
الموسع على طريقة في تمثيل المحتوى المعجمي الدلالي» حتى يتسنى الإفادة منها خصوصا 
في Jle‏ معالحة اللغات الطبيعية. 


-Y,t‏ التقويم المعجمي 

التقويم للموار د المعجمية» وهو أمر له أهميته في تطوير العمل المعجمي عن طريق نقده 
وتقييمه باعتماد معايير للتقييم والمفاضلة بين المشروعات المختلفة. ومثل أي تصور ينبغي 
قياس درجة كفايته مقارنا بالتصورات المقترحة المنافسة (السابقة). والكفاية تعني مدى 
ما يحققه التصور النظري من دقة في تمثيل الظواهر اللغوية: ملاحظة ووصفا وتفسيرا. 
وقد تعددت معايير اختبار الفرضيات اللغوية لتغطى كل مجالات الظواهر المدروسة. 
فقد أعاد جاكندوف توظيف dpt cis‏ بيكصيري مد رات الكفاية اللسانية 
للنظرية النحوية في مجال النظرية المعجمية» فاقترح جاكندوف 1975 ((Jackendoff,‏ 
المستويات الثلاثة التالية: الكفاية Adequacy) žao S‏ امير كام بأن يكون 
المورد المعجمي Wu‏ لبنية معجم اللغة التي يمثلها؛ وحدات lado‏ ة eal s‏ 
والكفاية الوصفية ob (Descriptive Adequacy)‏ تستطيع قائمة الوحدات المعجمية 
توصيف/ LUE‏ البنية المعجمية الدلالية للمعجم: كيانات وعلاقات» وتمثيل مقولات 
التحليل المعجمي الدلالي» وأناطه التي تم التوصل إليها. والكفاية التفسيرية Explan-)‏ 
(atory Adequacy‏ وتعني القدرة على تمثيل البنية المعجمية تمثيلا يوضح العلاقات» 
والاطرادات» والاختلافات» والفروق الدلالية. وأن تكون مصوغة صياغة بنيوية. 
وقد تعرضت هذه الأفكار للمراجعة والتطوير. ومما ينبغى ذكره في هذا السياق إضافة 
بوسطيوفسكى (Pustejovsky,1995)‏ مستوى آخر» i‏ الكفاية الج Empir-)‏ 
(ical Adequacy‏ وتعني الصمود أمام تحقيق القدر الأكبر من النجاح في الاختبارات 


.http://www.lexicalmarkupframework.org : رابط المشر وع هو‎ - ١ 
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الذي تتعرض له مادة المورد المعجمي أثناء التعامل معها حاسوبيا عن طريق التطبيقات 
الحاسوبية )2002 .(Ide & Romary,‏ 


وبصورة أكثر عملية يمكن تطوير مجموعتين من المعايير لقياس الكفاية اللسانية 
ا حاسوبية للمورد المعجمى: 
٠‏ مجموعة المعايير التى تتوجه إلى طبيعة المحتوى المعجمى: وتشمل درجة 
استيعاب الوحدات المعجمية والمعان/ الدلالات» ودرجة عمق التحليل 
E oes uds de eoi ban a‏ اللات ايا 


E‏ المعايير التي تتوجه إلى لغة تمثيل المحتوى المعجمي: وتتمثل في 
تحليلية التمثيل؛ أي قابلية المورد المعجمي للتحليل النحويّ لاستخلاص 
المعلومات والأنماط اللغوية من المورد المعجمى» وفاعلية تمثيل البنية 
المعتجمية: 


- 


ه- الموارد All‏ العربية الحاسوبية 


للغة العربية ثروة كبيرة من الموارد المعجَيِيّة التقليدية/ غير الحاسوبية» تتنوع مادة 
ومنهجا وحجاء كا أن U‏ ثروة معجمية حاسوبية آخذة في النمو والتطور وفي الوقت 
ذاته استعان العمل المعجمي الحاسوبي بادة الموارد المعجَوِيّة الورقية في بناء موارده 
l Aas‏ 


- 


-١‏ أنماط الموارد المعجَويّة العربية في علاقتها بالعمل الحاسوبي 
تم تطوير عدد من الموارد المعسججوية العربية الحاسوبية على اختلاف في طبيعتها وغايتها 


وک Jet esa‏ لانتو اعانا کر 
المورد المعجمي في هذه الحالة مقروءا للمستخدم البشري باعتباره نسخة مرقمنة 
من معجم تقليدي» ويمكن للبرنامج ا حاسوبي التعامل معها باعتباره نصا. 
وهذا المستوى هو أبسط أناط التعامل الحاسوبي مع الموارد المعجوية. 
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المعاجم التقليدية المحوسبة. ويكون بتخزين مادة الموارد المعجَيِيّة التقليدية 
في أشكال حاسوبية كقواعد البيانات؛ (o‏ يبسر طريقة التعامل معها سواء 
للمستعمل البشري أو البرامج الحاسوبية. وهذه الموارد المعجَويّة هي. في 
الحقيقة» موارد مُعجَمِيّة تقليدية ألبست ثوبا حاسوبيا بإدخالها - عبر لوحة 
الا سك ]نف gg‏ ر كيز ن lao‏ اا اد ino‏ 
الشكل الحاسوبي تنظيما للادة وطريقة العرض والاستعلام» وتجعل هذه الأعمال 
على أسطوانة أو أتيحت للبحث على شبكة المعلومات الدولية On-line Dic-)‏ 
lonas‏ وهذا النمط من Geste‏ يمكن اعتباره معج) تقليديا رغم 
اعتماده على الحاسوب في أحد جوانبه» لما فيه من احتفاظ بكل خصائص المعجم 
التقليدي. ومن ذلك معجم الغني» والمعجم العربي الشاملء والمعجم الوسيط 
في نسخته المحوسبة وغيرها. 

موارد aie‏ تقليدية استعانت في تنظيم مادتها وإحصائها وإخراجها 
بالحاسوب. فعلى مستوى الصناعة المعجمية بدأ توظيف الحاسوب في بناء عدد 
من الموارد المعجَمِيّة مثل معجم اللغة العربية المعاصرة. 

المورد المعجمي الحاسوبي: ويقصد به بناء المورد المعجمي على أسس من المفاهيم 
الحاسوبية خصوصا في مراحل تمثيل المعلومات المعجمية» بالاعتماد على تصور 
نظري؛ (o‏ يحقق متطلبات المقاربة الحاسوبية alU‏ المعجمية. 

ومن أمثلة الموارد المعجَيِيّة العربية القائمة ما يلي: 


e‏ شبكة الكلمات العربية 

شبكة الكلمات العربية هو مشروع منبثق عن المشروع المركزي Global Word-)‏ 
(Net‏ ويقوم التصور الأسامي في هذا العمل على الاعتماد على المشروع الأسامي باللغة 
الإنجليزية وسحبه إلى العربية عبر معجم ثنائي اللغة: إنجليزي/ عربي. ويتبنى هذا 
العمل جل التصورات النظرية والأدوات التطبيقية لمشروع شبكة الكلمات الإنجليزية» 
بل إنه ينطلق من الإنجليزية متبنيا افتراضا يرى أن تلك المنهجية هو الطريقة المثلى لبناء 
مورد معجمي عربي حاسوي في أسرع وفت لتحقيق أكبر قدر ممكن من الإفادة في 
تطبيقات معالحة اللغة الطبيعية. ويمكن النظر إلى هذا المشروع باعتباره موردًا معجميا 


EX 
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ثنائي اللغة لا يغني بحال عن النهوض بمشروع لشبكة لفظية عربية تنطلق أساسا من 


* مشروع المعجم العربي التفاعلي 
هذا المشروع أكبر المشروعات المعجمية العربية لما توفر له من إمكانات فنية ومالية 
وسياسية وإعلامية» باعتباره مشروعا عربيا قوميا بات من ضرورات العصر المعلوماتي. 

وقد دعا القائمون على المشروع عددا كبيرا من المختصين في هذا المجال لاستقصاء 
الجوانب الفنية والأفكار العلمية التى يمكن أن يفاد منها في بناء هذا المورد المعجمى. 
وقدم هذا الحشد من (خبراء المعجم) عددا من الأوراق البحثية تكاد تغطي معظم 
جوانب بناء مورد مُعجَمِيٌ حاسوبي. ولكن يلاحظ في هذا السياق هو عدم تغطية 
الأوراق (ومن ثم التوصيات النهائية) أهم جوانب العمل المعجمي الحاسوبي وهو 
جانب تمثيل المحتوى المعجمي الدلالي. الذي لم تفرد له ورقة بحثية واحدة» ومن ثم 
اكتفي بالعمل بالاعتماد على المعاجم التقليدية في ذلك. 

Y , o‏ — مراجعة نقدية للموارد العربية المعحمية 

حقق العمل المعجمي العربي الحاسوبي نتائج طيبة على المستويين؛ البحثي والتطبيقي» 
فعلى المستوى البحثى يوجد عدد من الدراسات التى تتركز على العمل المعجمى 
الحاسوبي من منطلقات لغوية أو من منطلقات حاسوبية. وعلى المستوى التطبيقي تم 
تطوير عدد من الموارد المعجَمِيّة العربية منها ما كان مبنيا على أسس معجمية دلالية مثل 
مشروع بروب- بنك العربية CArabic PropBank)‏ التي بنيت بالتوازي مع مجموعة 
من الموارد المعجَمِيّة للغات أخرى أهمها بروب-بنك الإنجليزية» واتخذت مدونتها من 
أعداد من جريدة النهار اللبنانية. وقد أخذت بعض المشروعات العربية تفيد من النظرية 
الدلالية» مثل بناء: قاعدة للدلالات المعجمية العربية مؤسسة على نظرية الحقول 
الدلالية» إذ تم فيها توظيف نظرية الحقول الدلالية في بناء مورد مُعجَوِيٌ دلالي تقوم 
بنيته على توظيف * Y‏ نمطا من أناط العلاقات الدلالية» واعتمدت هذا المورد Gel‏ 
في مادته الأساسية على المكنز الكبير. 


Ed 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


وبالرغم من النشاط الواضح في مجال العمل المعجمي العربي الحاسوبي فإن هناك ما 
يشبه الاتفاق بين العاملين في المجال المعجمي JU s‏ اللسانيات الحاسوبية على أن الموارد 
Leal‏ العربية يعوزها الكثير من التطوير بحثيا وتطبيقيا لتواكب التطور الحادث لهذا 
المجال في السياق العالمي من جهة وليحقق متطلبات مجال اللسانيات الحاسوبية. ويمكن 
إيراد بعض الملاحظات على واقع العمل المعجمي العربي الحاسوبي كما يلي: 

* مشكلات في التأسيس النظري: إذ تعتمد معظم قواعد البيانات العربية على 
مفهوم للحوسبة؛ يرى في نقل الموارد osoli‏ التقليدية إلى جداول قاعدة 
البيانات» حوسبة تامة للمعجم» غير أن العمل الحاسوبي يقتضي القيام على 
أفكار حاسوبية» ابتداء من تصور الغايات التي من أجلها يبنى المورد المعجّميٌ» 
ومنهجية التحليل والتمثيل» وتصور طبيعة المحتوى المعجمي الدلالي. 

° فمن المفاهيم التي ينبغي أن يتخذ فيها موقف مبني علي درس نظري؛ الموقف 
من التجمعات اللفظية |3 إنه غير واضح أو محدد وبه اختلاط» فالفروق 
ليست جليه بين أنواع هذه التجمعات. ويشتد الخلط عند الحديث عن التعبير 
الاصطلاحي „Idiom‏ علي أن هذا الموقف ليس له أن ينضبط مالم يعتمد علي 
تأسيس نظري شامل» ومدونة محوسبة تحلل gil‏ المستخرجة منها ثم يتم 
قثيلها على أسس معجمية دلالية. إذ لا أمل في تعريف الحاسوب التعبيرات 
الاصطلاحية - مثلا - فيتعرف عليها T‏ في النصوص التي تقدم إليه ويعرف 
معناها (مقابلها إذا كان الحديث عن تطبيقات الترجمة الآلية) مالم تكن الأفكار 
النظرية واضحة في أذهان مطوريه ابتداءً. 


؟ مركزية الصرف في المعالجات الحاسوبية للمعجم وطغيان فكرة (الجذر - الجذع 
- الوزن - المجرد المزيد ..) علي الفكر المعجمي الحاسوبي وذلك مردوده إلى 
أمرين: سهولة السيطرة علي مادة المعجم el‏ واستعلاما من خلال الصرف 
(أو المحللات الصرفية) لصورية المقاربة الصرفية أو شكليتها وإمكان إخضاعها 
للحوسبة دون الدخول في غياهب الدلالة والتركيب والأمر الثاني هو بقايا 
تكبل بالفكر المعجمي التقليدي. علي ننا لا نعيب ele VI‏ بالصرف إنا نعيب 
اعتداده المحور الوحيد الذي يدار عليه المعجم» وهذا موقف نظري أدى إلى 
JU]‏ البحث في جوانب بنية المعجم التي هي من أهم القضايا في Jle‏ العمل 
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المعجمي الحاسوبي الغربي» على أن البنية المعجمية هي التي يتجلي فيها الزخم 
النظري الذي حكم المعجم تنظيرًا وتنظيً. 

* عدم ظهور آثار الحاسوب في مجال العمل المعجمي الورقي أو الحاسوبي فلم نر 
مثلا معاجم للاستعمال أو معاجم التجمعات أو قوائم بأكثر الكلمات شيوعًا 
ومعانيها. وهي الأمور التي ستكون معالجتها من خلال المدونة المحوسبة Vel‏ 
سهلاً إن هي بنيت علي تنظير لساني. B‏ الآن لم يخرج لنا معجم بمواصفات 
معجم لونجان للإنجليزية المعاصرة» أو كولينز كوبليد وكل ما رأيناه هي 
معاجم لا تقدم جديدا غير تسهيل عملية البحث» هذه المعاجم يمكن أن نطلق 
عليها المعاجم المحوسبة التقليدية. 

Ul, *‏ ما بخص الجانب الحاسوبي فإن الحاسوبين قد ff‏ الجانب الحاسوبي 
جل tele‏ على حساب الجانب اللساني واللغوي - وتلك iG‏ اللسانيات 
الحاسوبية - فاكتفوا بمعالجة المعاجم الكائنة مع تطويعها للقالب الحاسوبيء 
دون محاولة اقتراح تصور نظري معجمي دلالي للمعجم الحاسوبي المنشود. 
فظلت التصورات الموجهة نحو المعجم الحاسوبي- رغم وجاهة كثير منها 
تطبيقيا- لصيقة بجدار الصرف (الاشتقاق والتصريف). 

* التركيز على الجوانب السكونية للمعجم العربي بالتركيز على سرد الدلالات أو 
المعاني الخاصة بالكلمات» دون الجوانب الديناميكية التوليدية لرصد الآليات 
المتعلقة بآليات توليد الدلالات الجديدة في السياقات الجديدة. 

* تقليدية المقاربة الحاسوبية للمعجم: فقد ورثت المعجمية العربية الحاسوبية 
جل المشكلات النظرية عن المعجمية التقليدية لذا فإن معظم هنات المعجم 
التقليدي تظهر في المعجم الحاسوبي. ]3 تتبنى المشروعات المعجمية الحاسوبية 
الأفكار المعجمية والتركيبية والدلالية التقليدية؛ فيظهر المعجم وكأنه نسخة من 
المعجم التقليدي اتخذت ثوبًا حاسوبيّاء دون تبني تصور خاص في استكشاف 
البنية المعجمية الدلالية العربية. وتظهر التقليدية في مقولات التصنيف الصرفية 
والتركيبية والدلالية المعتمدة. واعتماد معظم الموارد المعجَويّة المحوسبة علي 
المعاجم التقليدية التي هي نفسها تفتقر إلى الأسس النظرية البحثية التي تجعلها 
مادة كافية بمطالب معالحة اللغات الطبيعية أو حتى أن تكون ذات كفاية وصفية 
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كموارد معجوية جيب تت تتو am‏ للمستعمل البشري وهو ما لاحظه عبد القادر الفارسي 
ال العربية من قصور وافتقار للكفاية الوصفية ونقص في 
الاستيعاب وعدم النسقية أو الانتظام في جوانب النطق والصرف والتركيب 
والدلالة أو جانب التأصيل .Etymology‏ 

واعتاد مفاهيم لغوية تقليدية مما يؤثر علي دقة النتائج التي يخرجها البحث 
الحاسوبي. وتحديث المفاهيم اللغوية والمعجمية ينبغي أن تسبق التحديث 
التقنى إذ إن الأول هاد ومرشد للثاني لا العكس. ولا شك أن حل الإشكالات 
التنظيرية حلا نظريا في المعجم التقليدي ستظهر آثارها في ا معجم الحاسوبي 
فا معالجة الحاسوبية للمعجم مرآة تعكس المنجز التنظيري وتحصر نتائجها 
ثم تعيد تمثيلهاء فلا يمكن أن نعتقد أن تقنيات التخزين ومعالجة المعلومات 
حاسوبيا ستكون معالجة منضبطة مالم تكن قد توفرت ها ضوابط نظرية محددة 
قبلاء ثم Gl‏ العمل الحاسوبي تطبيقا ها. 

Y *‏ جال لكل ما يقدمه D a pal‏ من نقد لمعتسي a‏ وإن كان d.‏ 
صحيحاء فليس المطلوب أن هجم الحاسوبي علي مادة سائغة ثم يجعل الحاسوب 
يتعامل معها إن ينبغي أن يوضع في الاعتبار أن المعجمية الحاسوبية هي الأخرى 
petendi‏ ضع ماج وناء de grecs‏ كاذ عدون 
نصوصية ثم حوسبتها ووضع مخطط لمقولاتها الرئيسية والفرعية ثم التحليل 
cures‏ رر cul‏ إل الع اا toes‏ عل ای 
عن أي عمل معجمي حاسوبي دون أن تعد له العدة المعرفية اللسانية النظرية 
والتطبيقية الكافية» جنبا إلى جنب مع الأدوات الحاسوبيةء هو بمثابة قفز إلى 
النتائج دون معالحة المقدمات. 


= ال المقترحة في إطار العمل ge‏ — » 
الحاسوبي d ys Ke‏ آفاق p dnd‏ الحاسوبي. 
-١‏ فهناك أعمال بحثية ودراسات ينبغى إنجازها مثل الأبحاث الدلالية المعجمية» 
والأبحاث في جال الاستعمالء والبنية المعجمية» والبنية الاشتقاقية الدلالية 
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للمعجم العربي» ودراسات لسانية نفسية تقصد إلى توصيف المعجم الذهني 
لمتكلم العربية. مثل هذه الدراسات سوف تكون وسيلة لإنجاز مورد qe‏ 
عربي مؤسس على تأسيس نظري وتجريب det‏ 

؟- ينبغى تطوير أدوات تحليل المدونات النصية العربية بتعميق جوانبها اللسانية 
TET‏ فرز التجمعات اللفظية والتّعبيرات الاصطلاحية» بطريقة تتجاوز 
الجانب ب الإحصائي الغفل الذي يمن من الحصول على التجمعات G‏ كانت 

طبيعتها دون النظر إلى بنيتها الداخلية. 

Y‏ ينبغي التأسيس (أو إنجاز البنية البحثية التحتية) لإنشاء موارد مُعجَوِيّة 
"MEM‏ مختلفة لعل آهمهاء كخطوة أولى» Ca‏ بخص الواقع المعجمي الحالي؛ 
المعجم العربي المقروء آلا يضاهي معجم ويبستر السابع (V Webster)‏ أو 
معجم لونجان للإنجليزية المعاصرة» بحيث يكون مادة للبحث والدرس 
المعجمي الحاسوبي» ومصدرًا لاستخلاص المعلومات التركيبية والدلالية» 
وتوليد موارد مُعجَمِيّة أخري منه أو بمساعدته مثل (Word net)‏ أو Arabic)‏ 
(Frame Net‏ . 


5- إنجاز عدد من الموارد المعجَمِيّة العربية الضرورية والتي لا يمكن إنجازها 
الآن إلا باعتماد آليات العمل المعجمي الحاسوبي نظرا لاحتياج المجتمع اللغوي 
والتطبيقات الحاسوبية إلى مادتها. ومن هذه الأنواع: المعجم التاريخي» والمعجم 
التأصيلي والمعجم الاستعالي والمعاجم القطاعية: مثل معاجم التعببرات 
الاصطلاحية والمتلازمات اللفظية» والأفعال العبارية .المعاجم ذات الأهداف 
التطبيقية الخاصة: مثل معاجم الترجمة الآلية. 

-٥‏ تطوير منصة لسانية حاسوبية لتقيبس وتقييم الموارد المعجَويّة» بحيث يتم 
تصميمها لتحقق كلا من المتطلبات اللسانية والمتطلبات الحاسوبية» ولتكون 
مرجعية لتقييس وتقويم الموارد المعجمية العربية. 
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ببليوجرافيا مرجعيّة 

.١949/ ابن مراد (إبراهيم): مقدمة لنظرية المعجم» دار الغرب الإسلامي» بيروت‎ .١ 

۲. عمر (أحمد ختار) بمساعدة فريق عمل: معجم اللغة العربية المعاصرة» عالم الكتب» 
YA‏ 

۳. عمر el)‏ مختار) بمساعدة فريق عمل: المكنز الكبير: معجم شامل للمجالات 
والمترادفات والمتضادات» سطورء القاهرة» طا Vere‏ 

5. الفهري (عبد القادر الفاسي): المعجم العربي: ناذج تحليلية جديدة» توبقال للنشر» 
الدار البیضاءء .١9499‏ 

ه. الفهري (عبد القادر الفاسى): المعجمة والتوسيطء المركز الثقافي العربي الدار 
البيضاى ٠۹۹۷‏ . 


(ألكسو :CALECSO‏ ورشة عمل معجم اللغة العربية التفاعلي: 


http://www.almuajam.org/index.htm. 


7. Ahlswede, T. & Evens, M. (1989). A lexicon for a medical expert 


). 


system. In Relational models of the lexicon, Martha Evens (Ed. 


Cambridge University Press, New York, NY, USA 97-111. 


8. Amsler, R. A. (1980). The Structure of the Merriam-Webster Pocket 
Dic-tionary. Technical Report. University of Texas at Austin, Aus- 


tin, TX, USA. 


9. Atkins, B. S., & Rundell, M. (2008). The Oxford guide to practical 


lexicography. Oxford University Press. 


10. Attia, M., Rashwan, M., Ragheb, A., Al-Badrashiny, M., Al-Ba- 
soumy, H., Abdou, S., A Compact Arabic Lexical Semantics Lan- 


guage Resource Based on the Theory of Semantic Fields, Lec- 


ture Notes on Computer Science (LNCS): Advances in Natural 
Language Processing, Springer-Verlag Berlin Heidelberg, LNCS/ 


-ífí- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


LNAI; Vol. No. 5221/2008; pp. 65-76 http://www.springerlink.com/ 
content/100p13145723v162/ Aug. 2008. 


11. Baker, C. F. & Fillmore, C. J. & Cronin, B. (2003). The Structure of 
the FrameNet Database. Int J Lexicography (2003) 16(3): 281-296 
doi:10.1093/71/16.3.281. 


12. Boas, H. C. (2009). Multilingual FrameNets in Computational 
Lexi-cography: Methods and Applications. Walter de Gruyter. 


13. Boguraev, B. (Ed.). (1989). Computational Lexicography for Nat- 
ural Language Processing. Longman Publishing Group, White 
Plains, NY, USA. 


14. Byrd, R. J. (1986a). ‘Dictionary Systems for Office Practice’ in 
Pro-ceedings of the Grosseto Workshop *On Automating the Lexi- 
con’, also available as IBM Research Report RC 11872. 


15. Calzolari, N. (1989). The dictionary and the thesaurus can be com- 
bined. In Relational models of the lexicon, Martha Evens (Ed.). 
Cambridge University Press, New York, NY, USA 75-96. 


16. Cheng-ming, G. & Huang, C. & Gong, .ل‎ & Li, J. (1994). The evo- 
lution of machine-tractable dictionaries. In Proceedings of the 15th 
conference on Computational linguistics - Volume 2 (COLING *94), 
Vol. 2. Association for Computational Linguistics, Stroudsburg, PA, 
USA, 1231-1234. http://dx.doi.0rg/10.3115/991250.991352. 


17. Chodorow, M. S. & Byrd, R. J. & Heidorn, G. E. (1985). Extracting se- 
mantic hierarchies from a large on-line dictionary. In Proceedings of 
the 23rd annual meeting on Association for Computational Linguis- 
tics (ACL ‘85). Association for Computational Linguistics, Strouds- 
burg, PA, USA, 299-304. http://dx.doi.org/10.3115/981210.981247. 


18. Clark, J. T. (2012). Lexicological Evolution and Conceptual Pro- 
gress. HardPress. 


19. Debenham, J. (2012). Knowledge Engineering: Unifying Knowledge 
Base and Database Design. Springer-Verlag New York Incorporated. 


—£o- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


20. Dolk, D. R. (1988). Model management and structured modeling: 
the role of an information resource dictionary system. Commun. 
ACM 31, 6 (June 1988), 704-718. 


21. Elkateb, S. & Black, W. & Vossen, P. & Rodríguez, H. & Pease, A. 
& Alkhalifa, M. & Fellbaum, C., Building a WordNet for Arabic. 
http://www.adampease.org/Articulate/publications/LREC.pdf. 


22. Esuli, A. (2010). Automatic Generation of Lexical Resources for 
Opinion Mining. VDM Publishing. 

23. Fellbaum, C. & Alkhalifa, M. & Black, W. & Elkateb, S. & Pease, 
A. & Rodríguez, H. & Vossen, P. (2006). Building a WordNet for 
Arabic. Proceedings of the the 5th Conference on Language Re- 
sources and Evaluation LREC2006, 2006.  http://nlp.Isi.upc.edu/ 
papers/fellbaum06.pdf. 


24. Fellbaum, C. (1998). WordNet: An Electronic Lexical Database. 
Cam-bridge, MA: MIT Press. 


25. Fillmore, C. J. (2005). “Frame semantics". In: Brown, K. (ed.), 
En-cyclopedia of language and linguistics. Oxford: Elsevier. 
26. Francopoulo, G. and Paroubek, P. (eds) (2013). Front Matter, in 


LMF Lexical Markup Framework, John Wiley & Sons, Inc., Ho- 
boken, NJ USA. doi: 10.1002/9781118712696. fmatter. 


27. Frawley, W. (1989). Relational models and metascience. In Rela- 
tional models of the lexicon, Martha Evens (Ed.). Cambridge Uni- 
versity Press, New York, NY, USA 335-372. 


28. Granger, S. & Paquot, M. (2012). Electronic Lexicography. Oxford 
University Press. 


29. Hartmann, R.R.K. (2001). Teaching and researching lexicography. 
(Ap-plied linguistics in action.) Edinburgh: Pearson Education. 


30. Ide, N. & Véronis, J. (1994). Machine Readable Dictionaries: What 
have we learned, where do we go? Proceedings of the International 
Work-shop on the Future of Lexical Research, Beijing, China, 137-46. 


d 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


31. Ide, N.& Romary, L. (2002). Standards for Language Re-sources 
Proceedings of the Third Language Resources and Evaluation Con- 
ference (LREC), Las Palmas, Canary Islands, Spain, 839-44. 


32. Inkpen, D. (2009). Building a Lexical Knowledge-Base of Near-Syn- 
onym Differences. LAP Lambert Acad. Publ. 


33. Jackendoff, R. (1975). Morphological and semantic regularities in 
the lexicon.Language 51. 639-671. 


34. Jarmasz, M. & Szpakowicz, S. (2001a). Roget's Thesaurus as an 
Elec-tronic Lexical Knowledge Base. In NIE BEZ ZNACZENIA. 
Prace ofiarowane Profesorowi Zygmuntowi Saloniemu z okazji 
40-lecia pracy naukowej. W. Gruszczynski, D. Kopcinska, eds., Bi- 
alystokHalliday, M A K; et al 2004 Lexicology and corpus linguis- 
tics : an introduction. New York. 


35. Karpova, O. & Kartashkova, F. (2009). Lexicology and terminolo- 
gy: a worldwide outlook. Cambridge Scholars. 


36. Landau, S.I. (2001). Dictionaries: The art and craft of lexicography. 
(2nd ed.) Cambridge: Cambridge University Press. 


37. Levin, B. (1993). English Verb Classes and Alternations. University 
of Chicago Press. 


38. Litkowski, K. C. (2005). “Computational Lexicons and Dictionar- 
ies”, Encyclopedia of Language and Linguistics (2nd ed.).Elsevier 
Publishers, Oxford. 


39. Mel""cuk, I. A. (1988). ‘Semantic Description of Lexical Units in an 
Explanatory Combinatorial Dictionary: Basic Principles and Heuris- 
tic Criteria; in International Journal of Lexicography 1.3. 165-188. 
40. Mel"cuk, I. A. (1995). The Future of the Lexicon in Linguistic 
De-scription and the Explanatory Combinatorial Dictionary. In I.-H. 


Lee (ed.): Linguistics in the Morning Calm 3 (Selected Papers from 
SICOL-1992), Seoul, 181-270. 


-fv- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 — ييا 


. Mel'éuk, I.A. (1998). *Collocations and lexical functions". In: Cow- 


ie, A.P. (ed.), Phraseology: Theory, analysis and applications. Ox- 
ford: Clarendon Press. 23—54. Ogden, C.K. and I.A. Richards. 1923. 
The meaning of meaning. London: Routledge and Kegan Paul. 


Diab, M. & Al-Badrashiny, M. & Aminian, M. & Attia, M. & 
Elfardy, H. & Habash, N. & Hawwari, A. (2014). Tharwa: A Large 
Scale Dialectal Arabic - Standard Arabic - English Lexicon. The 9th 
edition of the Language Resources and Evaluation (LREC) Confer- 
ence, 26-31 May, Reykjavik, Iceland. 


. Oltramari, A. & Vossen, P. & Qin, L. & Hovy, E. (2013). New Trends 


of Research in Ontologies and Lexical Resources: Ideas, Projects, 
Systems. Springer-Verlag GmbH. 


. Ovchinnikova, E. (2012). Integration of World Knowledge for Nat- 


ural Language Understanding. Springer. 


Palmer, M. & Gildea, D. & Kingsbury, P. “The Proposition Bank: 
An Annotated Corpus of Semantic Roles." Computational Linguis- 
tics, 31:1., pp. 71-105, March, 2005. http://verbs.colorado.edu/ 
verb-index/. 


Pustejovsky, J. & Boguraev, B. (1993). Lexical Knowledge 
Rep-resentation and Natural Language Processing, in Artificial In- 
telligence, http://dx.doi.org/10.1016/0004-3702(93)90017-6. 


Pustejovsky, J. (1995). The Generative Lexicon, MIT Press. 


Rufus H. Gouws, Ulrich Heid, Wolfgang Schweickard and Herbert 
Ernst Wiegand (Editors). Dictionaries. An International Encyclo- 
pedia of Lexicography. Supplementary Volume: Recent Develop- 
ments with Special Focus on Computational Lexicography. Berlin/ 
New York: Mouton de Gruyter. 


Russell, J. & Cohn, R. (2012). Framenet. Book on Demand. 


Sinclair, J.M. (ed.) (1996). Looking Up: an Account of the CO- 
BUILD Project in Lexical Computing. London: Collins. 


dA 


41 


42. 


43 


44 


45. 


46. 


47. 


48. 


49. 
50. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


51. Spohr, D. (2012). Towards a Multifunctional Lexical Resource: De- 
sign and Implementation of a Graph-based Lexicon Model. Walter 
de Gruyter. 


52. Svensén, B. (1993). Practical Lexicography: Principles and Meth- 
ods of Dictionary-Making. Oxford University Press. Translated 
from the Swedish by J. Sykes and K. Schofield. 


53. Vermon, L. (2012). Lexicology and Lexicography: Words and Ways. 
Webster's Digital Services. 


54. Véronis, J. & Ide, N. (1991). An assessment of semantic informa- 
tion automatically extracted from machine readable dictionaries. In 
Proceedings of the fifth conference on European chapter of the As- 
sociation for Computational Linguistics (EACL *91). Association 
for Computational Linguistics, Stroudsburg, PA, USA. 


55. Wilks, Y. & Fass, D. & Guo, C. & McDonald, J. & Plate, T. & 
Slator, B. (1988). *A Tractable Machine Dictionary as a Resource 
for Computational Semantics," in Bran Boguraev and Ted Briscoe 
(eds) Computational Lexicography for Natural Language Process- 
ing, Harlow, Essex, Longman. 


56. Würzner, KK. (Hrsg.) & Pohl, E. (Hrsg.). (2012). Lexical resources 
in psycholinguistic research. Universitátsverlag Potsdam. 


57. Zernik, U. (1991). Editor, Lexical acquisition: exploiting on-line 
re-sources to build a lexicon. Lawrence Erlbaum Associates, Hills- 
dale, NJ. 


-£4- 


ذه الطبعة aa‏ 
n‏ بنشرها ورقيا أو تداولها تج 
ولا يسمح ب 


— 0% 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EE NN‏ ^ 


الفصل الثاني 
-Ê 4^‏ م 
المدَوّنات اللغويّة 


د. المعتز بالله السّعيد 


ALI SLAI في مفهوم‎ -١ 

E إرهاصات المنهج» وتطّوّر دراسة المدَوّنات‎ -Y 
العرية:‎ ZA المدّوّ نات‎ © 

4 - أنواع المدّوّنات EA‏ 

A AI SLS à ye -o 

5- المدّوّنات ZA‏ وال فهورسة "m‏ 

ET coU SAL مجالات الإفادة من‎ -y 

LEA Ze وكات‎ E =A 


4- من المواقع الإلكترونيّة التعليميّة والإرشاديّة. 
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AU atia d S 

E‏ ات (Corpus Linguistics) FNN‏ بالبحث فى الظواهر اللغوية 
وتفسيرها من خلال مجموعةٍ ين ua El‏ التي تت الواقع G AG‏ وهي ليست عل 
بالمفهوم الدّقيق للعُلُوم؛ لكنّها منهج SA‏ حديثٌ eed‏ يميف إلى وصف واقع illl‏ 
Bles‏ على مجموعة من النصوص التي (EE‏ ذلك الواقع من خلال مناهج التحليل 
ost a AD‏ والمعياريٌ LS‏ والمقارن GE‏ ومسكوياته. an pall)‏ 
AN AUI, elo vieta‏ الچ eig‏ إلى EUER‏ قائمة 
عرد Ed i‏ كا m c‏ 

el‏ البحث في هذا ce‏ هي Corpus) a RU "EAR‏ روا باعتبارها 
مجموعةً من ua ea‏ اللغة المكتوبة أو امنطوقة التي يمكن UI‏ معها SES Qf‏ 
في بياناتها tura y‏ بالإضافة أو الحذف أو التعديل من خلال قواعدٍ بياناتِ صُمّمَت 
لتكونَ قادرة على العمل مع هذه الصوص حت F‏ هذه القواعدٌ aal ss Gja‏ 
od‏ ري وس ايا دولك 
الأساسيّة للمدونة E AU‏ مُستقبلاً 

LAE oS SG,‏ ليست تُصوصًا تقبيديّةٌ أو عشوائية؛ LÉS‏ كتلةٌ ^ منتظمةٍ 

من التصوص التي ad‏ لمجموعةٍ من الأسّس والعايي يُحَدّدها الهدفٌ المنشودٌ من 
المدَوّنة اللَعَويّة. ESANG‏ التي acad‏ عليها في صناعة Sd eiut‏ تختلف Ste‏ عن 
تلك المستخدّمةٍ في حصر ie gat‏ من الأنماط التركيبيّة أو JI‏ للغة؛ Cal (S‏ ماده 
ESAN‏ الستخدمة في صناعة مُعجَم GLS‏ عن تلك التي aiu‏ عليها في صناعة 
ez É coll‏ و ذلك EUM op‏ الال للنصوص تتف وطبيعة ea‏ 
فالأدواثُ المستٌخدمةٌ وطريقة Lbh‏ النصوص وطرائقٌ ق إدارة قواعدٍ البيانات. js.‏ 
هذا Ci‏ لتلك الأشس i ts‏ تمذّدها طبيعة EAD Si‏ ولخد منها. 

ومع وُضُوح الفكرة 3a‏ لاستخدام AI I‏ منذ ما يقرب من أربعة 
رون إلا أن الطَفرة العلوماتبة احائلة التي fasi ies‏ الحديثٌ في ميادين الحوسبة 
وة تقنية المعلُومات قد D‏ وَجَهَة الباحثين» eei‏ من E‏ مع مجموعاتٍ 
ضخمة من النصوص والحصول على cuta‏ أكثر s‏ ووضوحًا . ول يعد تفسير الظواهر 


—oY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


AU‏ قاصرًا على colt I‏ التقليديّة ية؛ بل تخطّى ذلك إلى JA‏ مع مناهج تجريبيّة 
أدّت بدور ها إلى اختلافٍ في طرائق تحليلٍ التصوص .كالم يعد بناءٌ الأدوات SÉE Jy‏ 
المناعدة فى abus‏ اللغات e ii‏ 1728 على الخوارزمات» إذ أصبحَ لزامًا على 
صانعيها أن يُفيدُوا من EAD eil‏ باعتبارها VS SG, a‏ 

t عند بنائها لإحدى ثلاث‎ zi EA eji صوص‎ el Cis 

P Ci حيث‎ (Questionnaire) تقوم على الاستبانة‎ ii الطّريقة الأولى:‎ - ١و‎ ١ 
الذي تنتمي إليه‎ D E bE مجموعة من الأسئلة على أشخاص‎ ESI 
ل‎ asbl sedi A X الاستبانة ا المعرفيّة‎ Aule les, ا‎ 
والمصنقين ذوي الاختصاصء وأوجه‎ LÉSI وعناوين الكتب المختارّة» وأسماء‎ 
E 53 لتحي‎ tM peso ds ier dr Mel 
ومَصَاوِرٌ‎ ioni إليها‎ Dad المعرفية فة التي‎ dug - كذلك‎ - S2, المنشودة؛‎ 


FS غراف‎ all والمَترَةٌ المي التي تتتمي إليها النصوص»‎ «X21 المادّة‎ 
مُدَوّنات الدّراسات‎ eL, في‎ - isle - ia fol هذه‎ pde o gi a s SSII إليها‎ 
اللّهجات [القديمة والمعاصرة]؛‎ cob, «Empirical Studies T 
بها يُساعدٌ على صناعة‎ e lI للمجتمَعاتِ‎ E XD DLA sty في‎ IE 
en LSA الإشارة إلى شيوع هذه الطريقة في بناء‎ Da y. 36 AUI الأطالس‎ 
FUN T EAF الا‎ ol لاسا عند بناء‎ LITT Lll "ES 


Do» 


PEGAN‏ إلى تعليم «col‏ سانكم لأبناء اللغة el‏ للنّاطقينَ بغيرها. 


oeil cad ada, deia c ps à الطّريقة الثَانيَة:‎ "١ 
المجتمّع‎ v^ no Es نة بحصر‎ P (eo z 2b 3 neuen ive Inventory) 
من مادّة هذا الجتمع.‎ ne نة المنشودة» دون استثناء‎ aad کله‎ PHI gn 
ال 2 تستهدفٌ الدزاسات‎ CHAP عادة - عند بناء‎ - ia h هذه‎ ML, 
j ة ذات المدى ا‎ £A SLS s )ا 38 في بناء‎ «(Survey Studies) المسحيّة‎ 
المستخدمة في صناعة مُعبّمات الأدباء ا نات‎ UU SALUS المحدود»‎ Gl xx أو‎ 
المستخدّمة في الدّراسات‎ coU All y cial المستخدمة في صناعة مُعجات الكت‎ 
عند أديب‎ pnl all مجموعةٍ من‎ SERRA كما 2 ا حال عند دراسة ظاهرة أدبي‎ - à 


—of£í- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


te QU وا - کا هو و‎ x ii المستخدمة في اللراسات‎ SLS ن»‎ "ev 
متم ما‎ iden التي‎ anas 
العيّنات الإحصائية‎ E وتوم م على‎ pi هي الأكثرٌ‎ IÉ الطريقة يقة‎ -* , Y 
ile لوي باختيار‎ à Sa Si ومن خلالها يقوم‎ «(Statistical E Theory) 
Random Sam-) عشوائة‎ à ice وأهدافهم البَحيّة» سواءٌ كانت‎ GE FE mU 
من المدَوّنات‎ p ال هذا‎ B «(Non- Random Sample) Zsl ye 7 " e «(ple 
EE لكوم اند عدوا‎ QE هو‎ egit غير‎ iE باعتبارو عه من‎ 
Ad user bar, المصنوعة وفمًا هذه الطريقة بأساليب التّحليل الإحصاتيً‎ 
المعجرات عمومًا؛‎ RIT عنه.‎ LR al لواقع‎ AE 
à gll ومُعيجمات العلّوم‎ FERE d لاسيّا المعجمات اللوي العامّة» والمعجات‎ 
e A الدّراسات‎ à- هذه الطريقة «كذلك‎ enis FUSCE Fe 
تُعنى باسترجاع‎ Ui Bs وميادين‎ n ia للغات‎ SI aL ull وضناعة أدوات‎ 
. (Machine Translation) الآليّة‎ ia Ji و‎ (Information Retrieval) المعلومات‎ 


و 


-Y‏ إرهاصات المنهج» وتطور دراسة coU SAL‏ اللْعَويّة 

elec في بناء‎ oeil gegen قدي‎ - 231, 5 2L اهنود‎ SU 
ا والتَعَرّف على دلالات الكلمات. وفي مرحلة مُتأخرة من القَرُونَ الؤُسطى كانت‎ 
والإفادة منها في‎ i Ai coU all هناك بعص المحاو لات الفردية - غير المنهجيّة - لبناء‎ 
KEYI C II والدّراسات‎ ig pecca وصناعة ا معجمات‎ go iil فهرسة‎ 
e AD بالإضافة إلى استخدامها في ميادين البحث‎ 

وكانت البداية ESM‏ لها في Jue‏ الدّراسات التَّوراتيّة» حيث eli‏ التاشر الاسكتلنديّ 
«ألكسندر 57$ 3 » OVV 1-149) (Alexander Cruden)‏ بجمع مادَّة الكتاب 
EN‏ باعتبارها y c A ada‏ واستخدّمّها في بناء فهارس ألفبائيّة لكليات الكتاب 
ادس - vien‏ (القديم والخديد) -.وما ra‏ به من موضوغات. وان هذه 
il dui‏ امغهرسة الأولى من الكتاب dil‏ في عام 1/7 م, ad‏ بذلكَ 


- 


KAES في إنجازه على‎ AS Dai فهرس‎ GS 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—————  —‏ 


وتلا ذلك استخدام المدّوّنات X AI‏ في صناعة المعاجم؛ وكانت البداية من خلال 
"av‏ الأديب الإنجليزي «صموئيل جونسون € W*4) (Samuel Johnson)‏ - 
VA‏ التي dU eol‏ عام ٠۷٤١‏ م - بمُساعدة ستة من تلاميذه؛ KE y‏ ماده x AM‏ 
من Jue NI‏ الأدبيّة لويليام شكسبير (William Shakespeare)‏ وجون ملتون John)‏ 
(Milton‏ وجون درايدن (John Dryden)‏ وغيرهم من أعلام الأدب الإنجليزي في 
ذلك الوقت. 
. صَبَّع جونسون من مادة a‏ مُعجً كيرا لمفرّدات الإنجليزيّة» AA S‏ ب ١مُعجم‏ 
اللغة الإنجليزيّة) .(A Dictionary of the English Language)‏ و dad‏ المعجم - 
الذي 255 كاملاً في عام de - puo‏ 281 من أربغين الف مدخل معجمي؛ OT‏ 
على مئة وخمسين الف تحليل َموي لفردات هذه «X i‏ ليُصبح - بذلك - mul‏ 
dis e ids is MES in n‏ هذا المعجم واحدًا من el‏ 


e‏ م je‏ — ادو تات i A‏ في صناعة pe‏ في القرن التاسع عشر 
الميلاديّ مع الحاجة إليها في بناء المعجمات ÉL ÉI ái‏ فاستخدمَت E di: DII‏ 
RU mm zum‏ الالمانيّة (Deutsches WórterBuch)‏ في عام RU pue «e VAYA‏ 
(Woordenboek der Nederlandsche Taal) aJ Al‏ في عام 1854م و مُعجّم 

g A0 في عام‎ (New English Dictionary) 3544-1 à; الإنجليز‎ 

PERT ا في تعليم‎ DLF مطلع القرن العشرين أمكنّ الإفادة من‎ ds 
(Edward Lee Thorndike) الأمريكي «إدوارد لي ثورنديك»‎ Mi dle gu حيث‎ 
اللغة الإنجليزية. وقامت‎ ees لاستخدامها في‎ £3 DSI ببناء‎ (YA£A- VAVE) 
التي تربو على أربعة ملايين كلمة‎ - ESAMI فكرة ثورنديك على إعادة ترتيب مُفرّدات‎ 

- بحسب أكثرها م وني عام ١147م 2E‏ هذه المادّة على هيئتها الجديدة في كتابه 
لذي 5 dics‏ منج بعنوان (Teacher's Word Book, New York)‏ . 

وأمكنَ YI‏ من منهج ثورنديك في بناء 53 ine‏ بعد- في بناء ما Mj‏ 
بالمعجّمات التعليميّة. ومن ناحية أخرىء فقد امتَدّت هذه الفكرةٌ من الاقتصار على 


-جهم- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE NN‏ ااا 


ل N e‏ کا EERS‏ 
شرة في تطو ير مناهج اللغة eui‏ بوي (Educational Linguistics)‏ . 
VIEN‏ المدَوّنات ا ذلك -في الدراسات التحوية قبل cias‏ القرن 
«cg adi‏ إذ كط ecol JE oA‏ ني شيل واقع اللغة عند aed‏ ها. . ففي عام 
۰م نش اللْعَوي الأمريكيٌ «تشارلز 4V- AAY) (Charles Fries) € 5 à‏ \( 
كتايه pi d‏ الحو الأنجل وأمريكيّ) azel o «(American English Grammar)‏ فيه 
على de pat AT ES‏ من الخطابات ru‏ لأعضاء الكونجرس الأمريكيّ. وبدا 
استخدامٌ المدَوّنات S‏ في الدّراسات النّحويّة أكثرٌ منهجيّةَ ووُضْوحًا في «البحث 
المسحي لاستخدامات RU‏ الإنجليزيّة» PU (The Survey of English Usage)‏ 
أعده الإنجليزي «راندولف $, ,3« RO Quirk)‏ ساعد آخرين-بين 
عامّي ٩۱۹۵م As‏ واعتمد فيه على E uI‏ عدد كلاتها إلى مليون 
كلمة. 


cai e‏ ملامح dest ZA SLALI‏ منهج دراستها من خلال مَدَوَنة 
جامعة براون القياسيّة للأنجلوأمريكيّة المعاصرة The Brown University Standar)‏ 
«(Corpus of Present-Day American English‏ أو ما cb‏ ب "wv‏ براون» 


Henry) الان الف «هنري كوتشيرا)‎ basil al «(Corpus Brown) 
(Nelson Francis) والأمريكيٰ «نلسون فرانسيس»‎ (۰1۰-14۲0) (Kučera 
ESE Jl لتكون‎ e 141 بتکلیف ف من جامعة براون في عام‎ »)۲۰۰۲-۱۹۱۰( 

AE 


اشْتَمَلّت مُدَوَّنة براون على أكثر من مليون كلمة» معت من مصادر أمريكيّة 
اة ور عت مادعا ين الكثب والقالات الصف وال تاق الحكومية FAT‏ 
والقصص القصيرة والتقارير وغيرها تحظى IA‏ براون بعناية Geeks od A‏ 
منذ ظهورهاء إذ مهّدت i‏ لدراسة GC‏ الحاسوبيّة كا S lt i‏ مام 
العديد من المشروعات الكبرى في مجالات البحث s (e I‏ وصناعة المعجم. 


—oNv- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


Members/nns of/in the/at committee/nn include/vibe Mrs./np Milton/np 
Bernet/np /, Mrs./np J./np Clinton/np Bowman/np ,/, Mrs./np Rollie/np W./ 
np Bradford/np /, Mrs./np Samuel/np Butler/np Jr./np ,/, Mrs./np Donald/np 
Carr/np Campbell/np //, Mrs.np Douglas/np Carruthers/np ,/, Mrs./np John/ 
np C./np Davis/np 3/cd /, ,/, Mrs./np Cris/np Dobbins/np ,/, Mrs./np William/ 
np E./np Glass/nn-tl ,/, Mrs./np Alfred/np Hicks/np 2/cd //, /, Mrs./np Donald/ 
np Magarrell/np ,/, Mrs./np Willett/np Moore/np ,/, Mrs./np Myron/np Neus- 
teter/np ,/, Mrs./np Richard/np Gibson/np Smith/np /, Mrs./np James/np S./ 
np Sudier/np 2/cd ,/, and/cc Mrs./np Thomas/np Welborn/np ./. 


الشّكل؟ ا نموذج من BS‏ براون (Brown Corpus)‏ . 


s‏ الفترة من ۱۹۷۰ إلى ۱۹۷۸م 88 à‏ من الباحثين في جامعتي لانگستر 
وأوسلو - SLIL‏ مع مركز الحوسبة النَرويجيٌ في مدينة بيرجن (Bergen)‏ - ببناء 
EX‏ لانكستر-أو سلو-برجن) Lancaster-Oslo-Bergen (LOB) Cor-)‏ 
ial (pus‏ الإنجليزيّة على غرار SA‏ براون من m‏ منهج البناء وطريقة ALULI‏ 
ا نة على مليون كلمة إنجليزيّة مكتوبة» e)‏ على ieget Reef‏ 

قع ألفيْ كلمةٍ لكل مجموعةٍ على حدة 5 ماد sa SAM‏ ال AE‏ 
om‏ ية التي نُشِرَت في المملكة المتّحدة حتى عام PATY‏ 


و 


PE 


- المدوّنات i AI‏ العربيّة 
هر منهج i ell AD Uis‏ في أمريكا وأوروبا في مطلع SEEN‏ 
من القرن العشرين. ومع هذاء فال منهج لا UE‏ جديدًا على اللّغة É al‏ ة التي لم تعرف 
الطريقٌ إليه إلا قريبًا من القرن الحادي والعشرين» من خلال مشروعاتِ بحثية 
وأطروحات Seele‏ معدودة» نعرض لبعضها فيا يلي: 


Z 


(NIJMEGEN Corpus) ( مدو ونة انايميخن‎ -١ Y 


aa‏ فريقٌ uem‏ في جامعة نايمَيخِن المولنديّة ۱۹۹٩ (le‏ و 1145م, 
بإشراف المعجمئ المولندي oU»‏ هوخلاند) «(an Hoogland)‏ وهى is 2d‏ 
ese‏ فكت ماكلا من الصف والجلات والكداب Lis s dall‏ ما ما يزيدٌ على 
(f el‏ كلمة. استّخدِمَت في صناعة مُعجم (s p‏ للعربيّة وا هولنديّة. 


1- https://github.com/Irscy/NLP-Assginments/blob/master/HW 1/Problem4/brown/cal7. 


—0A- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


0 41 PA 
(Corpus Linguae Arabicae -CLARA) المدونة العربية‎ -Y , Y 


الج ها فون m‏ بمعهد دراسات الشرق الآدتق iuba‏ تشارلد | لَشِيكية في عام 
دور د 


£e ۷‏ وهي Asa‏ لغوية كرا کت ماقا من الدو رات العلمية eal‏ 
العربيّة» وتضم حمسين مليون كلمة. RAIL‏ هذه ESU‏ لأغراض الصناعة OD IA‏ 


Z [7] Pos 
(LEUVEN Corpus) المدونة العربية‎ - Y , Y 


$ 


أنجرّت بجامعة OU‏ الكاثوليكية في بلجيكا بين Ale‏ 1850 و ۰٤‏ ۲۰ م؛ p‏ 
c.‏ ل و ل ا 
رال وتضم م ثلاثة ملايين كلمة» والمادّة المنطوقة Ea‏ من الإذاعات العربيّة 
والمسرّحِيّات وتشتمل على ۷٠١‏ ألف كلمة. ضيحت هذه المدونة SUE‏ منها في بناء 
مجم عري/ هولددي لي حاجة تع لمي all‏ من أبناه هولندا وبلجيكا. 

A A ual cti Sol EM de dE 2A الدثنات‎ aes 

Egypt 3544 - 4 ,Y 

وضعها مرك BI LL‏ والكلام في جامعة جون هوبكنز Cohn Hopkins)‏ في 
عام ١149‏ . وهي KAES‏ مكتوبة ومُتوازية مامتها TAI‏ الكريم وترجمة معانيه 
إلى الإنجليزِيّة i ill,‏ وتُصاحبّها بعض الإحصا ءات التي أجريّت de‏ صوص 
القرآن الكريم. Xs‏ هذه المدَوّنة لأغراض ay KIY Res ATI‏ متاح بصورة DG‏ 


(Corpus of Contemporary Arabic) $ العر بد المعاصر‎ "ure -o,Y 

وَصَعَتها الباحثة المَطَريّة لطيفة السليطي ضمنَ الأطروحة التي تقدّمت بها إلى 
جامعة ليدز للحُصّول على درجة الماجستير في عام E‏ ١٠م‏ وعنوائها اتصميم وتطوير 
P ads‏ 3 للعربيّة المعاصرة) Designing and Developing a Corpus of Con-)‏ 
(temporary Arabic‏ معت al CES go‏ وصفحات الويب» ويربو 
عدد كلماتها على ie‏ ألف كلمة؛ استّخدَمَتها الباحثةٌ لأغراض تعليوية glas‏ بتعليم 
العرييّة لخي ode‏ بها. 


1- http:;//web.ff.cuni.cz/ustavy/usj/staré/veda/proj ekty/clara.htm. 


-04- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا )1 — n———UUm‏ 


& il A ÉI العجم‎ ai - VY 
بها إلى جامعة‎ £s A بالل السّعيد) ضِمنَ الأطروحة‎ SL) لبايك‎ x55 
NT Ule s p ey القاهرة للحصول على درجة .الذكتوراه في عام‎ 
حاسوبيّة). عت صوص ار هى الراك‎ X مُعاكّة لَعَوِيّة‎ TAMEN Y. 
م إلى وقت إنجازها.‎ ٠١۷ العصّور الأدبيّة للعربيّة بدءًا من عام‎ e العريّ المكتوب‎ 
الكلمات فيه على‎ Sae ويربو‎ VY ثلاثة إصدارات» الأول ني عام‎ DSAI وهذه‎ 
الكلمات فيه على مليار كلمة»‎ Sae ويربو‎ Q8) مئة مليون كلمةء والثاني في عام‎ 
ويربو عد الكلمات فيه على مليار ونصف المليار كلمة.‎ CYA) ' في عام‎ SÉ 
AN الدّوحة‎ end منة‎ Ga PU bild iSo هذه‎ BERT وجدير‎ 

IRE EP DNE SEP لانيل ينان‎ e CERT 


E 


Pr 


(LDC Corpora) ) دي سي‎ Jp "UN اللغويّة‎ coU A -NV.Y 
-التابعة لجامعة بنسلفانيا الأمريكيّة- العديد من الموارد‎ LDC مُوّسّسة‎ SN 
والخليج‎ TEM P ie Ji تي تدعمٌ العربيّة المعاصرة ولهجاتها‎ AU 
للباجثين‎ Lagi led ad َه‎ US على‎ ayal واعتمدَت ]25 هذه‎ a 
ا ن ا ت ا ا‎ NM [بمُقابل]‎ ial بحوسبة‎ ci 

uas‏ 51 ان اودلا 


N |‏ مضدرالبانات التطبيقات | 

مكتوبة / وكالات 

جيجاوورد العربيّة الأنباء استرجاع المعلومات» ونمذجة 

Xn. lali اللغة» ومُعالجة اللغات‎ Yit ل‎ °° Arabic Gigaword 
Y*SYY Yea 
مكتوبة / وكالات‎ 

"E‏ الأنباء 
البنك النحوي العربي m"‏ الاستخراج gll‏ للمحتوى» 
Aaa Dd Arabic Treebank‏ واسترجاع «d cob dall‏ 
(أربعة أجزاء) والكشف عن المعلومات 
اليرت YNN‏ 
۱۲ ل ل[ 


l- http://www.ldc.upenn.edu 


—q4-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


, المدَوّنة الاخباريّة المنطوقة للعريّة‎ 
m EDERE E 
التعرّف على الكلام المنطوق‎ NP GALE Phase 4 Arabic 
Y YA الإخبارىٌ‎ 
E Broadcast News Speech 
E E za 
"T í المدونة االمتو ازية لنتدى العربى‎ 
العري منطوقة / قاشات ال حمة الآلة‎ ced ونة االمتوازية‎ 
(s NU PERTEN va BOLT Arabic Discussion Forum 
والعربية المعاصرة‎ led 1 Parallel Training Data 


4« 9 254 
الجدول ١-۲‏ : من المدونات اللغوية لمؤسّسة LDO‏ 


g x «A £ 
£I أنواع المدّوّنات‎ - € 

"C Az pai وفقا للهدف منها وجالات الإفادة من‎ ADI S نوع‎ Sio 
JEN اعتباراثٌ لتصنيف المدّوّنات» تُجملها على التّحو‎ 


il mais باعتبار هيئة الوص‎ KAD uS -١ , 4 

(Text Corpora) x I da المدَوّنات‎ * 

وهي المدَوّنات gll RAT‏ تستود ib‏ من مصادرٌ مكتوبة» كالصّحُف 
والمجلات Ely‏ المطبوعة والوثائق ى المخطوطة والمتشورات :والأطروبحاتث العلمية. 
E‏ انات ST AN s‏ وی علا آذ 5,58 Sat‏ رى اال 
pes A‏ في الدراسات PM] AU‏ ويناء المعججمات والتّتقيب في 
البيانات وبناء TER]‏ وشبكات الکلات» كما aM a^i à PALA‏ على 
pe‏ المكتوب (Optical Character Recognition -OCR)‏ - من أمثلتها: Ado‏ 
teY tele à Låt dest Ji (Oxford English Corpus) £ adayi 534x251‏ 
وتُستَخدَم مادعا - ull‏ تربو على مليارَيٰ كلمة - jul d‏ الطجة الثالثة من مُعجم 
أكسفورد v‏ للغة الإنجليزيّة (Oxford English Dictionary)‏ . 


dm 


(Speech/Spoken Corpora) المنطوقة‎ 3i PT coUa e 


هي المدّوّنات A‏ التي تستيد ESLa‏ من مصادرٌ منطوقةء كالأفلام الوثائقية 
والمسلسلات الإذاعيّة ونشرات الأخبار والمحادثات الطاتفيّة. ; هذه coU SAL‏ 
واقع للع النطوفة 15 عا أن تكون AE‏ لستوئ epe m e ai‏ في 


x 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
— ييا 


الدراسات ال ال ودر اة اللات شام الاطالسن aui asd, AU‏ 
على الكلام المنطوق (Automatic Speech Recognition -ASR)‏ من أمثلتها: 
مُدَوّنة «سانتا باربرا» للأنجلوأمريكيّة (الإنجليزيّة في الولايات المتحدة) المنطوقة 
is i | (Santa Barbara Corpus of Spoken American English)‏ في جامعة 
كاليفورنيا؛ سدم مادّتها في دراسة "t‏ ^ ` 


ê و‎ 22 "A 
: المدونات اللغوية باعتبار تعدد اللغة. وأنواعها‎ x 3 
(Monolingual Corpora) il أحاديّة‎ coU $34. * 


EE 


وهي s, i A S‏ نُصُوصّها من il‏ واحدة؛ Lus‏ عليها deo‏ 
مُستوى a MS‏ (اللغة النصيكن أو TCR‏ م في بناء المعجمات أحاديّة 
cal‏ كا تُستّخدم في العديد من Me‏ البحث في F e le‏ مثل الإحصاء iis‏ 
CEN‏ النّحويّة oL AU‏ اللَعَويّة الوصفِيّة. من أمثلتها: «مُدَوَّنة كوبيلد» CO-)‏ 
(BUILD Corpus‏ تي شارك في تطويرها فريقٌ بحثي مُشترك بين جامعة برمنجهام 
وموّسّسة «كولينز) (Collins)‏ للتشر eA d se‏ مادّها - التي تتجاوز t‏ مليون كلمة- 
في بناء La a di‏ اه decl‏ «كولينز — .(Collins Cobuild) tly ,S‏ 


(Bilingual Corpora) ili مدوّنات ثنائيّة‎ * 


وهي coU All‏ التي تستود نُصُوصّها من odd‏ تنتميان إلى فصيلة X d‏ واحدة 
أو فصيلتين؛ ؛ pláss‏ في بناء المعجمات PU‏ اللغة وتطبيقات JY iz JI‏ وتعليم 
اللغات. من أمثلتها: المدَوَّنة ges É‏ بين Ê‏ العربية والإنجليزيّة Sentence)‏ 
E Ji (Aligned Bilingual Arabic English Corpus‏ تها شركة صخر 00 
منها في 5 TE‏ 


Aen Gell GA القت لاله‎ ale Je sut 


(Multilingual Corpora) اللغات‎ B3 مدو نات‎ * 


وهي d AUI coU ALI‏ تي تستود نُصُوصّها من sie‏ لُغات؛ piai‏ في أغراض 
المدَوَّنات alis‏ على gius‏ واسع. من أمثلتها: BS‏ مُتعدّدة اللّغات Multilingual)‏ 
tadel (Corpus‏ الباحث العراقيٰ ستار الزوييٌ ضمن el SAL azz- 5 bÍ‏ جامعة 


tm 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ظكههةمة12© ١١١١‏ 


L2‏ ابه 


مانشسترء للإفادة منها في تطبيقات ال هة الآليّة؛ ونُصُوصّها تمده من ثلاث uyl‏ 
هي الإنجليزيّة (في سبعة ملايين كلمة) والسُّويديّة (في مليونين وسّبعمئة ألف كلمة) 
والعربيّة (في مليونين وخمسمئة CAI‏ كلمة). 


^ 


-v £‏ امدوّنات id ARI‏ باعتبار تواقق التُصُوص. وتتقسم إلى 

(Parallel Corpora) المتوازية‎ i المدوّنات‎ e 

AAN أكثرء وتكون‎ i n as الَو أي‎ oui 
[AUI 51] (اللّغة المصدر)ء وترجمة في اللّغة‎ P هذه اللغات‎ v] أصلاً في‎ 
c3 ا هدف)؛ من‎ Gt [أو‎ xD uid ت‎ esee EMI 
ترجات العهد القديم (وتكون‎ tfi aft 
«txt ot مصدرًا لغيرهما‎ lg العبريّة والآراميّة‎ 
فيها مصدرًا‎ Su وترجمات العهد الجديد (وتكون‎ 
القرآن الكريم (وتكون‎ cole is اللات‎ PEU 
اا اا ر‎ 
i all ثلاث لات هي‎ eb al یت‎ co Sl هذا التّوع من‎ GER ai رشيد)‎ 
ÉH a) والإغريقيّة‎ C aci) الكهنة) والقبطيّة‎ xad) القديمة‎ 

وتتعدّد وسائل الإفادة من انات اللي التوازية حيث AERE‏ بناء العجمات 
تنو ixl‏ وتطبيقات aM ie: xl "i ME‏ ىا pL‏ في تعليم uU‏ 
والدراسات ui‏ المقارنة (بين cul‏ الفصيلة الواحدة» كالعربيّة والعبريّة) والتقابليّة 
(jii cold ce)‏ المتكدّدة» كالعريئة (GE los s‏ رعا للأهداف المتشودة من 
المدَوّنات المتوازية توضَع uoo a‏ -جنبًا إلى جنب- في قوالب متوازية» بحيث AE‏ 
- في مصفوفاتٍ د كلو qu dde quu‏ . من أمثلتها: المدَّوّنة المتوازية 
لو الب لمان الأو ري European Parliament Proceedings Parallel Cor-)‏ 
di (us‏ أنجرّت خلال الفترة من 1497م إلى ۹٠٠۲م Uo d A,‏ مُتوازية بين 
الإنجليزيّة وعشرين لُعة أخرى من لات SENI‏ الأورُويّ» هي KKA ARLD‏ 


سے مه سمه 


UNI, «Cs asas‏ واليونانيّة ea says AUAM‏ والفنلنديّة والفرنسيّة 


E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o 7‏ ييا 


É‏ والإيطاليّة» واللّيتوانيّة» واللأتفيّة والهولنديّة» والبولنديّة» والبرتغالية 
da att deudor Gub‏ ا 

ويقتضي o‏ بناء ga USA‏ المتوازية أن 2 اھا بيعي الضوابط 
PEINE‏ الي BLYG EET‏ إلى وُجوب 
لارام بمحاذاة وض ينبغي FT doa zy‏ اهدق ما حالف de oe)‏ 
à‏ اللغة المصدّر. وعلى سبيل QUI‏ فاا نترجم ELAI‏ الإنجليزيّة (Obama Said that)‏ 
إلى Ju» LAL E‏ أوباما ذلك»» ولا نقول I Ju»‏ أوباما»؛ كما ينبغي ألا 
RM‏ الحرفية بها قد zl Z5‏ « فلا نقول - (Take the door) - S‏ ترحمة 
TEA‏ الباب»» lee x [s‏ بالملة (Close the door)‏ . ومن ناحية آخری» 
ينبغى مُراعاةٌ الجوانب البرجماتيّة/ التَّداوْليّة Pragmatics‏ الّتى aas‏ باستعمال AUI‏ بين 
il‏ - با في ذلك ألوان الاستعارة والكناية والمجاز؛ PRENNE‏ الجوانب 
بالجملة e FN (She is in the clouds)‏ إلى n‏ العربيّة ép‏ في TT‏ 
بينا یراد مها ÉD‏ شاردة الذَّهن)؛ وتحقيقًا للهدف من المدّوّنات المتوازية» ينبغى تحديد 
EAT‏ وتييزها في l E‏ 

(Non-parallel Corpora) غير المتوازية‎ RU coU Sall * 

3x5‏ أيضًا cuu‏ المتقاربة/ المتقابلة Corpora)‏ عاطم رسو وهي 
a asia Ji £D cousá‏ من جوع هن cobi‏ فق il‏ ة واحدة» أو 


TRE MCI‏ من aa PU‏ أصلاً غير مرجم في GI‏ من اللّغات 
التي piy asa uA‏ استخدامٌ هذا النّوع jl aco AR etn‏ 
بين Neat, Ax‏ القانونية بين الإنجليزيّة à URET‏ مقاطعات كندا gs‏ 
التعليمية بين العربيّة dI‏ في بعض دول CATENA‏ الا 
المدّوّنات المتقاربة في َل JYI‏ وتطبيقات 7E‏ هة NT‏ كا يُمكنٌ الإفادةٌ منها في 
تطبيقات فك الالتباس الدّلايّ للكلمات .(Word Sense Disambiguation -WSD)‏ 


E of : GN "n eri "| 7 m بن انض‎ 
a لاسي ال ا‎ 


sx E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


^ 


E. PE. E. 
اللغوية باعتبار طبيعة النصوص . وتنقسم إلى:‎ c -f,t 
(Specialized Corpora) ة المتخصّصة‎ i Au coU Sal e 


و 
A27‏ م وام 


هي المدَوّنات التي تستِدٌ نُصُوصّها من i m‏ أو مجموعة ERA‏ من «EH‏ 
سواءٌ أكانت YA‏ معرفية - كالول olli‏ والقاُونية والإخبارية أم حُقولاًتاريخية 
- كحُقُول اللغة القديمة والوسيطة والمعاصرة في JAE led‏ العُصُور الأدية 
في العربية أم ue s ae YAE‏ العربيّة في وادي JA‏ والجزيرة العربيّة وبلاد 
فارس؛ وقد za AE‏ فيها على النصوص المكتوبة أو المنطوقة» أو eed‏ صوص كاتب 
MICE‏ المسرحية عند شكسبير» ونُصُوص الشّعر عند طاغور الهندي؛ 
elei‏ في الدّراسات SAT‏ الوصفِيّة ودراسة اجات Per‏ 
الأدباء» وتستخدم - كذلك - في بناء الأطالس الَو EA ell‏ 
مثل CIUS Vy sete‏ العُلُوم ومُعجات الأدباء. من أمثلتها: me DI‏ 
للإنجليزيا ية المنطو (London-Lund Corpus of Spoken English -LLC) à‏ التي 
أنجرّهاٍ iX e a A‏ «جان سفارتفيك» (Jan Svartvik)‏ بتكليفي من جامعة لوند» 
وتستمةٌ ماما من اللعة الإتجايرية ية المحكيّة في لندن فيم| يتجاوزٌ Linai‏ مليون كلمة. 


(General Corpora) المدوّنات £5 العامّة‎ * 


وهي U‏ لغوية cid pn XY‏ من التصوص» بل BU Pes‏ بين 
مجموعات iid E‏ من الول المعرفية Cx,‏ ية به Kia‏ وقد pad‏ بين النصوص 
الكتوبة c4 eem‏ أد dad re ds aM‏ أغراض en m‏ 
PT‏ مشروع وط LDC 125 ny E (OntoNotes) lysg-‏ في 55 
إصداراتٍ بين عامّى ۲۰۰۷ و١١‏ ١ات‏ ا ا را راا ار 
مَادّتها بين الحوارات المكتوبة ونشرات الأخبار. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o  .‏ ا 


2 


3 عنونة/ تذييل المدّوّنات الغو‎ -o 

عنونة/ شيل ا Coe (Corpus Annotation)‏ وسيطة úse Jes‏ 
LA‏ من صُورتها QUO DI‏ إلى صُورةٍ يسهلى العام Quee‏ 552 نونة)؛ 
La,‏ بعنونة iD SN ote‏ إضافة معلوماتٍ توضيحيّة توصيفيّة لكل 
sa a a‏ على حدة؛ بحيثْ صح العلومات مُلازمةً للوحدات. 

3d‏ هذه ONT LUI ELI‏ لتُصُوص S KAU LSI‏ ساعد في إجراء 
Ue‏ لاخر ميك تفلل من ليق dod‏ ل dal eld‏ 
توصيفات المفرّدات؛ ومن ناحية أخرى يمكن الإفادة من العنونات الملحقة بمدونة 

aå‏ في عنونة ix ESI‏ أخرى في حال اتّفاق uÉ‏ في أهدافهماء واثّفاقها 

- كذلك - في أسلوب ا معالجة eee I‏ 

i‏ طريقة عنونة ADI USAN‏ باختلاف أنواعها وأغراضها Fendi‏ بل قد 
alc‏ طريقة العَنونة بين ÉS‏ باختلاف المعلومات Lal I‏ منهماء وإن URL‏ 
ce‏ وا هدف . فطريقة AI USN x ie‏ المستخدمة في التّحليل S. - iei‏ 
E‏ اماما pese rese dedito Id‏ 

qM‏ المدّوّنات A‏ المستخدمة في صناعة المعجم إلى الإبقاء على 
مُدَوّناتهم في صورتها الخام» > Lo‏ على تماشك هيئة النصّوص عند الاستشهاد بها 
أو البحث فيهاء et‏ يعمدٌ غيرُهم إلى وضع RUE LS‏ المعجميّة في صُورَتِين 
إحداهما خام (للاستشهاد والبحث) والأخرى مُعَنونة (للإحصاء والمعاة الآليّة). 

it ge SA‏ المدوّنات ADI‏ معلوماتٍ توصيفية K l‏ (مثل: أقسام الكلام 
وأناطها GONG ESAI‏ وأخرى غير KA‏ تتمثل في المعلومات الببليوجرافيّة. 
والمخصائص الشكلية ve aU‏ (مثل: نوع b ael‏ وأحجامها - في المدوّنات AUI‏ 
bns ia‏ ضع ii‏ والتنغيم والمقاطع all‏ ب ف امترات Gi Jd AUI‏ 
RE‏ أنواع العّنونة في المدّوّنات اللَعَوِيّة العربيّة فيها بلي. 


5 
A adi 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


(Syntactic Annotation) LS KU à gxi-Y,o 

وتُعنى بإضافة معلوماتٍ نحويّة - تركيبية - إلى صوص المدوّنة Ln‏ 8 من 
خلاها de‏ الكلام (Parts of Speech - "PoS")‏ الذي تنتمي إليه المفرّدات» بحيث 

Ta XIX gall ا لخا ہا؛ ويمكن الإفادة و‎ REEL NT 
وحصر‎ ES المكوازية وبناء المحلّلات‎ GSIN العربيّة في تحليل‎ K AI للمدوّنات‎ 
„gli والإحصاء‎ NI ia AE أنماط الجملة العربيّة ةه كما يُسِتَمَادُ منه في تطبيقات‎ 


و plaza I AI o $E s A i ali‏ إحدى وسن 
* العنونة بتعيين أقسام الكلام (PoS Tagging)‏ 
LM KA d‏ 
EXE‏ 
الآن.. ما الذي يشغل المثقفين المصريين أو العرب؟ ما هى القضية التى يختلفون حوها ويتفقون 
عليها؟ : l‏ 
adl‏ بعد العنونة 
الآن RPG /.. / RB‏ / الذي WP‏ / يشغل VBP‏ / المثقفين NNS‏ / المصريين NNS‏ / أو 
CC‏ / العرب /NNS‏ ؟/ RPG‏ / هي PRP‏ / القضية NN‏ / التي VBP o ilz. / WP‏ / 
RBUA p>‏ / ویتفقون RP Lele / VBP‏ / € 
uo)‏ عَنونة أقسام الكلام 
Tags PoS‏ 


RB c, fal‏ الأداة RP‏ الا سم الموصول WP‏ الففعل المضارع VBP‏ الأسمء الشّسائعة 
(للجمع) NNS‏ حرف العطف (CC‏ الضمير PRP‏ الأسمء الشائعة (للمفرّد) NN‏ 


الشّكل ۲-۲: نموذج من DS‏ مُعَنونة بتعيين أقسام الكلام - من مقالات نيس منصور. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————— $5‏ 


. العَنونة بتحليل أقسام (Parsing) eSI‏ 
وتعنى بتحليل نُصُوص المدَوّنة E AI‏ إلى مجموعةٍ من JR‏ وتحليل ا حمل 
إلى مُرکبات/ عبارات (Phrases)‏ وتحليل cS‏ إلى عناصرها KISI‏ 


JÕI es gai eel ونستطيع‎ 
S / الجملة‎ 
ULTUCPUE 


NP / الكماء‎ Pls 


EJE 


«Verb Phrase ¿dai 5 «Noun Phrase zz لمكب‎ «Sentence 3134 


الاسم Noun‏ الفعل Verb‏ شبه 3152 من ال جارٌ 53,2 «Prepositional Phrase‏ 


Determiner أداة التعريف‎ «Preposition 5H حرف‎ 


الشّكل Y Y‏ نموذج من مُدَوّنة مُعَنوّنة بتحليل أقسام الكلام-من TA‏ الكريم .)٠١ te‏ 
وتجدّر الإشارة إلى تنوع D‏ 3 المستخدّمة في تعيين أقسام الكلام وتحليلها با oid GE‏ 

الهدف المنشود من المدَوّنة اللْعَويّة. 

ونستطیع je‏ على على ذلك cat‏ من أنماط رُموز أقسام الكلام ÍSI (PoS Tags)‏ 

هو ذلك التّمَط PU‏ 4:53 مُوّسّسة Data Consortium -LDC)‏ سي بجامعة 

بنسلفانيا (Penn 205 Tags)‏ . وکال یی اموز الى buena‏ هذا النَّمَطَف الجدول 
uf‏ © 

: Qu 


1- LDC Website .(2011). List of Penn PoS tags used. From: 
https://catalog.ldc.upenn.edu/docs/LDC2003T06/arabic-POStags-collapse-to-PennPOStags.txt. 


sXAÀ- 


EOM EET S 
شائع (جمع)‎ [6s 
(5522) ede اسم‎ 
(جمع)‎ ede اسم‎ 


أداة ربط / عطف 


اسم مَوصول 


ETE) 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


(de! المصطلّح‎ 
Adjective 
Adverb 
Coordinating Conjunction 
Determiner / Demonstrative Pronoun 
Foreign Word 
Common noun, Singular 
Common Noun, Plural 
Proper Noun, Singular 
Proper Noun, Plural 
Particle 


Imperfect Verb (***nb: imperfect rather 
than present tense) 


Passive Verb (***nb: passive rather than 
past participle) 


Perfect Verb (***nb: perfect rather than 
past tense) 


Interjection 
Personal Pronoun 
Possessive Personal Pronoun 


Cardinal Number 


Subordinating Conjunction (FUNC _ 
WORD) or Preposition (PREP) 


Relative Pronoun 


wh-Adverb 


WP 


WRB 


«LDC» عن‎ - Penn PoS Tags t, Jl من رُموز أقسام الكلام‎ Y-Y الجدول‎ 


a 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


RDI في صر‎ C3 لتطوير الم‎ car as EI ul الآحَرُ‎ ain 

[عَطِيَّة & رشوان] - (RDI PoS Tags)‏ وهو 7T‏ تفصيلاً من سابقه. حيث يُعنى 
يان ا A‏ و Saal‏ دات من e‏ الع أو اكمود او الات ال جاتب 
عنايته بأقسام الكلام. وني إلى بعض a‏ 3 التي يعتودُها في O JŐ Jaat‏ 


| 2 is YI المصطلّح العرن المصطلّح‎ | 
Noun Nominal اسم‎ 
NounlInfinit Nouns made of infinitives مَصِدّر‎ 
SubjNoun Subject noun Je 9 اسم‎ 
ExaggAdj Exaggeration adjective صيغة مُبالّغة‎ 
ObjNoun Object noun J pur اسم‎ 
Femin Feminine elg 
Masc Masculine 5 v 
Single Singular مفرّد‎ 
Binary Binary EZ 
Plural Plural جمع‎ 
Prepos Preposition حرف جر‎ 
Interj Interjection حرف نداء‎ 
RelPro Relative pronoun اسم موصول‎ 
DemoPro Demonstrative pronoun اسم إشارة‎ 


-Attia & Rashwan" RDI PoS Tags" - t, JI eS الجدول ۳-۲: من رُموز أقسام‎ 


1- Attia, M. & Rashwan, M., A Large-Scale Arabic POS Tagger Based on a Compact Arabic 
POS Tags Set, and Application on the Statistical Inference of Syntactic Diacritics of Arabic 
Text Words, The Proceedings of the Arabic Language Technologies and Resources Int'l 
Conference; NEMLAR, Cairo-Egypt http://www.elda.org/nemlar-conf, Sept. 2004. 


-V +- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


(Semantic Annotation) X UI à gxi-Y,o 
at A BS المتَعَدّدة في‎ Y AUI ذات‎ col ili تختص العنونة الدلالية‎ 
(Artificial Intelligence -AI) العديد من تطبيقات الذكاة الاصطناعيٌ‎ à وعدم‎ 
تلك‎ AN (Natural Language Processing -NLP) الط‎ Ax iud j 
JY UI والشّبكات‎ (WordNets) مثل شبكات الكلمات‎ Qv بالتحلیل‎ i3 H E 
à وغيرها؛ أضف إلى ذلك أهميته‎ (Ontologies) والأئطو لو بيات‎ (Semantic Nets) 
.(Text Classification) m المعيجمية» وتصتيف‎ EAT coU $3 إعداد‎ 
e حدة‎ deg على التمييز بين دلالات كل‎ ENI تقو فكرة ي‎ 3 
آل أن‎ Subs وتجدر‎ (WSD Algorithms) qa الالتباس‎ DU خوارزماتٍ‎ 
من‎ l2 eam cd واسعة التطاق إذا‎ ÝN. í عنونة‎ lis العربيّة‎ RAT o6 sat 
على سبيل المثال دلالات‎ - (o فالكلمة‎ . CR 3H ضط‎ cue 
7 e ke D والحرف‎ (QD (بلِ) والفعل‎ po ة‎ z أقسام الكلام‎ 
بينا لا تحمل إلا دلالات أحد أقسام الكلام عندَ ضبطها بالشّكل.‎ ee d علامات‎ 
العربيّة» تعتمد الأول منهما‎ NER à PLI Ji DYI طريقتان للعنونة‎ 45 
TEPE حو ما یی‎ de « nouns 


EN aui |‏ 
فرفع البلقيطيّ حاجبيه الخفيفين .. وقال: .. أنعم وأكرم ١‏ 
اونوكف | NEU E a‏ 
فا ide‏ حاجبه | فأخبره أن رَجُلا من الخوارج جيء به Y‏ 
فلم U‏ انتظارٌه» JU‏ | للحاجب | إن أذنت لي عليه» وإلهجّوت Y AI‏ 
co die dis,‏ | الحاجب ابن عبد السّلام aa‏ من الغزالي y‏ 
ومن الخُطّباء عطارد بن | حاجب | بن زرارة» وقد che‏ أمام الرّسُول i‏ 

(۱) الشّعْر coil d al‏ (۲) خازن الباب وحارسه. (7) عَلَّم / بن E TE‏ 


الجدول 5-1 : نموذج من ESL‏ مُعنونة Os‏ - طريقة ١‏ 


الاب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————— $5‏ 


ds LI]‏ الأخرى: uus‏ أك مراف zia. b‏ العربيّة KEN‏ مع ما 
els‏ من وقتٍ وجهدٍ لإنجازها على الوجه المنشود؛ SU y‏ هذه الطريقة أن Say‏ 
إلى ثلاثة جوانب رئيسة. هي: : قسم الكلام اي تنتمي إليه المفرّدة» ودلالة cà» Sall‏ 
وموضع المفرّدة في لَص الذي 555 فيه؛ ونستطيغ dues‏ هذه اشر اتب ال 
| أن is Re‏ دلالات المغردات في JI‏ باعتبار أقسام الكلام PoS‏ وهو ما يعني 
ضرورةً إخضاع E ga yo Sa‏ بتعيين أقسام الكلام في مرحلة «dl‏ َم 
عنونتها بدلالة المفرّدة في مرحلة ثانية» uai,‏ على موضع المفرّدة في سياقها في مرحلةٍ 
ثالثة. 


ولتوضيح هذه الطريقة: نعر في الجدول الاي S a‏ للعنونة | الدّلاليّة للمجموع 
GLSI‏ (من) في بعض سياقاته التي وَرَدَت في القرآن الكريم: 


| PoS الكريم)‎ TAN السّياق (من:‎ (PoS / 5 (م/‎ | 
N 4 ss Su eee di os éii isy 059 
N AU صَدَقَائَكُم‎ LSY لیا َا الذِينَ منوا‎ (111.2 
N 46455 ن بعتا من‎ Cos EUG I) 
V € 92581 اسْتُضْعِفُوا في‎ Cad عَلَ‎ S o SP (IER 
V € Soc de Y أَنْ أشلموا قل‎ ae S QUY 
i علب‎ 265 AE 45 من‎ G1 AS œo.) 
المعاني‎ 
اس ايقياة‎ NE | oS 
حرف جر‎ (o) exo 
أقسام الكلام‎ = (POS) السّطرء (د) = دلالة المفرّدة»‎ / zal (م) = موضع المفرّدة في‎ 
الاسم 2 -7 = الفعل» 3 = ۴ = الأداة‎ - 1-11 


الجدول ۲-ه: نموذج من X eaa ESI‏ دلاليًا - طريقة Y‏ 


-NY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


(Encoding) ميز‎ A -Y,o 


يُعنى Ld!‏ بإضافة معلوماتٍ توصِيفيّة ميكل SIU‏ ته A‏ في صُورةٍ S‏ 
من BLII‏ معها برجي أو تحليل نُصُوصِها باستخدام أدوات LL‏ الآليّة؛ ويستفاد 
من هذه pla sui‏ في بناء قواعد بيانات DLS‏ اللَعَويّة بصورة منتظمة du‏ 
dim‏ النصوص وقت الحاجة إليها؛ ومن ناحية حية أخرى ساعد Ss Al‏ في التعامل 
مع المدَوّنة الكرية وأدوات المعاكّة الآليّة ها عبر الشبكة العنكبوتيّة من خلال استدعاء 
بيانات الویب «(Web Mining)‏ کا يُمَكٌن من pus‏ المباشر مع eulos‏ التقيب: في 
البيانات «(Data Mining)‏ وما (Text Mining) asta à WS dee p‏ 
والبحث في مُستودعات البيانات .(Data- Warehouse)‏ 


ALI,‏ م لضبط هيئة Nr‏ - تمهيدًا لترميزها- إحدى È‏ التظام اك 
لشفرات اروف «(Unicode Transformation Format -UTF)‏ حيث تتو افق 


هذه الصَّيّغ مع المعايير القياسية E‏ لإظهار المحارف أو الجرافييات «(Graphemes)‏ 6 
u^‏ م العوية من iudi ah E kel‏ كان e‏ 5 الا ا 


للامتداد «(Extensible Markup e -XML)‏ وهي sn al‏ اتات 


nt a AU à sal‏ نظام de (Unicode) 47 5l d» a6‏ كقاعدة 
بياناتٍ يَسهّل تناقلّها عبر صَفحات الويب. 


<?xal version-'1.0' encoding-"'UTF-8' standalone-"yes"?»? 
>60 :1111 62 الأساصية لمجلس النواب المصري‎ 32530 / 0:11 t1e? 
Xo:Author? المشرّع‎ /o:Àuthor? 
€Xo:Created?2009-08-14T12:18:00Z4/o:Created? 
Xo:LastSaved?2009-08-14T12:18:00Z4/o:LastSaved? 
Xresp?compiled byX/resp? Xo:Yords?1565C/o:Words? 
Xo:Characters?89214/o:Characters? 
Xo:Lines?74C/o:Lines? 
Xnane?Almo3taz Bellah(/name? 
)۴ : اللائحة الأساصية لمجلس النواب المصري<1‎ w : < 
)۴ zt? adul اللائحة الأساصية التي وافق عليها مجلس النواب المصري وصدر بها الأمر‎ Cw zt? 
)۴:۲(1882 (في 18 ربيع الأول صنة 1299 ه) 7 فبراير صنة‎ Cw: t? 
)۴ : t2 524 )نحن خديو‎ fw : t? 
>« :121881 أكتوبر صنة‎ 4 35194 1298 Xo .بعد الاطلاع على أمرنا الصادر بتاريخ 11 $3 القعدة‎ C/w t? 
Cr : 1 .وبناء على ما قرره مجلس النواب» وموافقة رأي مجلس نظارنا<‎ Cft? 


الشّكل 5-١‏ : نموذج من مُدَوَّنة مُرَمّزة باستخدام لّغة XML»‏ 


3 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————‏ 


esos فهرسة‎ ff, RAT لد وباك‎ 

e التَعامُل‎ à iw لإتاحة‎ di E per RT المدّوّنات‎ d MAD 
ما تقومٌ به‎ lias وأنماطها؛‎ aa عل تعدد‎ = AEA الكلات المقرّدة أو التعبيرات‎ 
المدّوّنات‎ gem شل‎ uus حيث‎ «(Automatic يماي‎ PADI المقهرسات‎ 
إلى‎ eu وتعبيرات» د ثم تحليل‎ cs إلى‎ ge ثم تحليل‎ ; TIT إلى فقراتٍ‎ a 
الوحدات المعجمية للنضوص.‎ JE (Lemmas / Lemmata) p? 


و 


$8 n- الممَهرّسة»‎ à NT لطبيعة‎ (Lemmatization) Ti ee -—: 

الممهرسات I‏ على تفريع الكلمات عند فهرسة وس ouii‏ الإلصاقيّة (كالالمانيّة 
والإتجليزية وار ول ex IE‏ الاشتقاقية £s)‏ 
والعبريّة GER,‏ وهو أمرٌ تفرضه ال xi EE‏ الاشتقاقيّة نظرًا دده 
الوحدات المعجميّة d del cl» all La ss i (Lexemes)‏ المعجمية 
(Entries)‏ هذا فكثيرًا ما ERN Mani‏ مُساعِدةٌ للمفهرسات GY‏ عند 


تحليل النُصُوص العَرَبيّه كالمحلّلات الصَّرفِيّة والثّ 


«î Lemmatiser - Default. lemma 
Fle Edk Actions Options — Window 


Add Chid | 


Indent>> [ 
| >> )0 الات تلات‎ 
Cut 
[ Pee ] 
pum 


Surl 


!7 ج + ج ج 4 © + ل بن بن © + + 4+44+4 


. ConcordanceY, Y / فى الإنجليزيّة والعربية‎ Lemmatiser التفريع‎ aj : 0-7 الشكل‎ 
1- http://www.concordancesoftware.co.uk. 


-v£í- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


Li منها في‎ Sc A الأساسية‎ SSI إحدى‎ uaa فهرسة‎ Xi Ss 
الكلات وإعادة‎ colas وحصر‎ gas في إدارة‎ dui حيث‎ e$ XUI c5 $a 
تشكيلها في قواعد بياناتٍ مُنتَظِمَةِ؛ ؛ كا تساعد في تعيين الكلمات الفريدة / غير المكرّرة‎ 


à (Unique Words)‏ اا الأمر يوجة إلى إمكانية desi‏ مع مجموعةٍ من 
الكلمات التي عا i iu w sieb‏ 


٠٤٠١٤١ أن عد الكلمات الفريدة / التي لم تتكرّر في المدوّنة قد بلمّ‎ ISI cos 
et 433,0 كلمة» بنسبة‎ ٠ الدونة البالغ عددها‎ cds كلمة من جس‎ 
o واحدةٌ فحسبء‎ 2S1] أن ما يزيد على ننصف الكلمات الفريدة لم يرد‎ TET أفادت‎ 
إلى‎ ٠١١ مرّة (من‎ Ra أقل من واحدٍ بالمئة من هذه الكلمات الفريدة قد 251555 من‎ 
وغير ذلك من التتائج المبيّنة‎ CL, ٠۷ بنسبة‎ ٠٠٠١١ وأكثر من‎ n, 
"uva A على صُورَتها - إذ تنغ من‎ FU ليست‎ eel -0)؛ ومع أن هذه‎ Y في (الجحدول‎ 
رس سي لات‎ UU e co 


4 i. yrs 


E SAI coU SAL o sad‏ العربية عمو 
| التكرار عدد الكلمات التسبة إلى غير $1 
]oY,o VoYvVy ١‏ 
۲ إلى /YN o1۲ ٠١‏ 
١١‏ إلى J^, Y ١ ٠٠١‏ 
١‏ إلى ٠٠١١‏ ۷ ۹ 
أكثر من Lt, ER ٠٠٠١‏ 
عدد كلمات المدَّوّنة = ۱١۲٠۱۹۲۰‏ 
عدد الكلمات الفريدة )/١١,5( ١5١٠557 = (Unique Words?‏ 


الجدول Ml on “٠-۲‏ ونمو جمموعة من العربيةالعاصرة. 


534 الإشارة إلى وجود ال 


-ه/ا _- 


Giana e A oe a ين لفهرسة‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تاوا 


£ 


بالمهرّسة الألفبائيّة؛ ويخ هذه ZIYI‏ ترتيب تَ المفردات ألفبائيًا دون التظر إلى السّوابق 
nii ass ally‏ الطبيغة PU e NEU nb US I‏ ا 


(0.0 aConCorde - 042 C) 


LS 


Bc Yo 


NI 


رنب حسب بمين الكلمة تصاعدى [ [v‏ 
cedi‏ ومن أبن dés‏ السخرة عن إبراخيم تن مهرلن E‏ 
حتى كان من امي السهرة فلن جنريل وحشر له 
ثمائى ويكون ذقك عت السهرة فين للاعاء في ذلك 
جبريل de‏ اسلام إلى السكرة Sod‏ عرج بي 
أن بنزل إلى تمت السهرة فيقعل ولكن نهد في 
إذا دحك للسمد فأدخل السخرة من ol‏ للشلمى ثم 
اله عليه وسلم dio‏ السهرة من للمنة , وعن على 
adi‏ اشاس قي ذكر السهرة died‏ عن 
فسلى فبه عن بين ans Led‏ ودعا خرج من 
على فهر le g ii‏ السخرة وعلى طور مبناء وعلى 
مهتا حجر hd‏ على السهرة وعن di cna‏ بفول 
إلى Ca‏ افاس غربي السهرة وعن عبد لك ين 
القبه للغسوي في دير السارة وعن وهب: لما كثر 
تف ركعة عن بين السخرة وعن سارها دخل Ail‏ 
بهذا M‏ عاء من باب السهرة da‏ من باب الس 
الأرض بجبال السخرة شرفي السغرة وهي اة لقي لذي 
الموئي aa UE‏ السيرة das‏ عن qa‏ وعن 
اللسور يبت qud‏ على الصخرة بلادي ليها المظام AJ‏ 


الكلمات المحردة = 6 محموع الكلمات = ۸50 ملف المدولة: تاريخ نت المقدس.01256©) auus aa]‏ النص = 4 
الشّكل ؟-5: نمودّجٌ للممّه رس الآلَ الألفبائيّ P" aConCorde- : , f, Y‏ 
AVI D‏ الأخرى بالمَهرّسة الجذعيّة؛ والجذع gi e o^ Stem‏ 
نكا 3 eu dole‏ الخاد المورفيهات ESU‏ لِينيّة الكلمة الأساسيّة سية (ومن 
أمثلته : Golo es‏ الذي کون عنه NT wi‏ > «والجذع «مكتب» PU‏ 
تَكَوَنَت عنه "P‏ ةالجمع «المكتبات». 


Da ہے‎ 


C)‏ هذه الآلية إمكانية (rm oe t‏ الكلات» بعد تجريدها من السّوابق 
AG ed Je «jo Ult;‏ الشّكل الآتي: 


I-II Ium mutum 
| j E [3 


OGIO 


T 


lsi 


a 


1- http;//www.andy-roberts.net/software/aConCorde/.. 


—-NY- 


هذه الطب هة إهداء من المركز 
ولا يسمح بنشرها وريا أو تداولها تجارياً 


oisla| ùle] ASIR] v انه‎ 7| Si ؟‎ ١ 
fear raed Jê د‎ ellul] :2 


الحجرة النبوية الشريفة أغراضه مقتتيات ال بي محمد أ p‏ التي de‏ منير النبي محمد القصواء متحف ال 


5 ٠ 1 t $ t 0 - at 
I الي محمد نعل‎ aro الي محمد القضواع‎ pto الشريفة أغراضه مقتنيات النبى محمد اثر الت بي محمد‎ 


E 5 " ١ 
al محمد القصواء متجحف الت بي محمد نعل‎ qa ابي محمد أثر النبي محمد منبر‎ 


لبي محمد مثير التي محمد القواء متحف اللي محمد نعل التي محمد كب فتعلقة به علم الد 


النبي محمد القصواء متحف gl‏ محمد نعل ^m qe‏ كتب متعلقة به علم الحديث التبوي صحيح il‏ 
السيرة E‏ لابن كر الروضن الأنف الأنوار المخمدية من المواهب اللدنية ألفية السيرة النبوية امو 
ألفية السيرة التبوية المواهب اللدنية بالمنح | لمحهدية (كتاب) الرحيق المخحتوم (كتاب) تتح المتعال في ٠‏ 

3 


مدح التعال sül‏ بأحوال المصطفى علم | 3 لشمائل 1 لمحمديةالشفا بتعريف حقوق المصطفى الشمائل 


يأ 


١ لمجمدية ) كتاب) الصلاة على التبيدلائل‎ i بتعريف حقوق املصطفى الشمائل‎ FRAR APE- 


.© Concapp °, ٠ ¿pid JYI للممّهرس‎ Qe 5 Je 


2 A rd 
à AUI مجالات الإفادة من المدّوّنات‎ -V 


-ê 


(Linguistics) PT الرس / علم‎ à اللغوية‎ coU All یمکن الإفادة من‎ 
[Urn والتاطِقينَ‎ saren cx D e d 


Ed 


4 


- s JI استخدام انات‎ -١, ۷ 
deed بمناهج البحث في‎ ull دراسة‎ d ة‎ KA يرتبط استخدام المدوّنات‎ 
dod الهدف المنشوة وطبيعةً‎ sistol- امون‎ d قبل الشّروع‎ - Ele ون‎ 
gei Alas p agit شكل‎ sido be إذ عل أسايهها‎ 
Tm OE a d RR UR 

jlah‏ - فيا يلي - لبعض جوانب الإفادة من G EAD coU SAI‏ علوم اللغة. 


l- http://wmtang.org/200820/11//concapp-5/. 


-NN- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——————- 5‏ 


E ية المنطوقة في دراسة جو‎ i تَسَخْدَم المدَوّناتٌ‎ : (Phonetics) الأصوات‎ 
pu iz JI (Allophones) «الألوفونات»‎ 5 Lal ole pill بين‎ axe 

أشكال الوحدات «الفونييات» (Phonemes)‏ ودراسة dà Š pall al‏ 
الوحدات في سياق PASII‏ مثل «الّر) (Stress)‏ و «التنغيم» (Intonation)‏ . 


cou SAL Li: (Morphology) »‏ الل E‏ في دراسة الصَيّغ 
Seda 3I bod d) dia ode aio R0 a‏ 5 
المجرّدة «المورفييات» (Morphemes)‏ المكونة لأقسام الكلام» ودراسة أساليب 

التوليد d l‏ للكلمات ix‏ من الأفعال والمصادر. 


A رو‎ 29 


ال کیب USA RR: (Syntax)‏ اللْعَوِية النصيًة أو المنطوقة في التُحليل 
us‏ للجُملة؛ aT‏ : حصر وإحصاء ء الأنماط es AI‏ 
للجملة في a CEA‏ والتقعيد eti de‏ اعتهادًا de‏ الواقع RT‏ 
المكتوب EN as mo‏ الترَكيبة Axes Li‏ عليها في وصف 
الأخة أو استخدامها على الحو gl‏ توجد عليه بين أهلها. 

m an gae a E E (Semantics) 3) V JI 
DNI وشبكات الكلمات والشّبكات‎ MEETS بناء قواعد بيانات‎ do 
d PIBE بين المفرّدات؛ كا‎ CIVI من خلال العلاقات‎ it والرّبط بين‎ 
سعيًا إلى إيجاد الوسائل المناسبة لني‎ "e في‎ qa الالتباس‎ al tod 
تُساعدٌ في حل مُشكلات هذا الالتباس.‎ 


المعجوية 2 تقوم are‏ الَو بدور p 3 Je‏ نظریات 


2 يتاب مع ليلل ونظايها‎ em 


وتختلف cel à EN E S EU ib‏ من هذه العُلُوم 
abc MD e‏ 


22 2492 


فالدّراسةٌ الوصفية تتطلّبُ 532 d à‏ سكي Ria‏ من واقع aid‏ المكتوبة أو 
ERI‏ عن معايير الصَّواب والخطأ في الاستعمال AUI‏ 


—NVA-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


RAR في واقعها الحادث؛ وبعبارة أخرى.‎ RU d* jx 3| soes 
Ba Ua E HIR. 
هذا‎ SY من مُستوى اللغة الفصيحة»‎ KA B53 Ål والدّراسة المعيارية‎ e 
Él الع من الدّراسات لا يسعى إلى وضع القواعد الغو أو التنظير هاء‎ 
موجودةٍ على أرض الواقع‎ Ea ER TIO JOE يسعى إلى‎ 
للف باي‎ zia حي‎ d d it cue zen ° 
مرحلة عن‎ JÉ وما تنفرة به‎ illi بين مراحل‎ o إلى وراسة أوججه‎ dae 
A s المراجل الأخرى. وما يطرأ عليها من كول‎ 
إلى المقابلة‎ ag UN «ouil Na ix 553 تتطلّبُ‎ zd والدراسة‎ * 
أحة‎ fied ns al بهدف تعلّم‎ a في نظاتين‎ ia بين خصائص‎ 
التي يسعى إلى تعلوها.‎ RR الآخرٌ‎ RUE ca p Gea, المتعلّم التي‎ in التُظامَين‎ 
صناعة المعجمات‎ jÝ AI a اتا‎ ۷ 
القديمة في تسجيل المفرّدات ومعانيها على اللّخة اي ,35.5 ا‎ dca 
انرود عدب يتهديب العجراث القديمة‎ ordigi iade 
JA lue العام »ولك انها اللي شر ها‎ ax وإعادة صياغتها لتتناسّبَ تمه‎ 
واكان والأحداث.‎ oU So s ali cs AUI 
المعجَيّن ل يووا إلى هذا‎ GT AE E الضّناعة المعجَويّ في كثير من اللّخات‎ ls لكي‎ 
إلى‎ es فحسب» دون‎ ratal المدف» لاع دهم على المعججات القديمة والدراسات‎ 
من هذا الواقع؛‎ A اسيل اكز ال سرض رد لبوا لوس‎ e 
إلى عدم التمييز بين المهمّل والمستعمّل من مُفرّدات اللغة ومعانيها.‎ T الذي‎ ^y 
على ذلك من اللّخة العربيّة بالمعجم الوسيط (وهو مُعجمٌ عري‎ fid ونستطيعٌ أن‎ 
م» وني طبعته‎ 197٠ بالقاهرة في طبعته الأولى عام‎ a اللّغة‎ ee Sal co 
غل شاكلة‎ « lai حيث يُعنى بإيراد معاي الحديد من اقول‎ (re quo adi 
(حاسب» وحاشوب) الشَائِعَيّن‎ GR وجَعبّبَ) ولا يُعنى‎ Mo qe 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o 7‏ ييا 


- eI oy pee في صناعة‎ AUI USA pus Rd 
وا متداولة‎ EA التي يعتمدٌ عليها في صناعة لمعجَم من اللغة‎ SUI سيجمع‎ - ii يتك‎ 
dll بين أهلهاء لا من اللّغة المهجورة في ثنايا المعجمات القديمة؛ كما سيكون 28 على‎ 
هذه الفائدة في الل‎ gi والتادر والمهمّلٍ من المغردات والمعاني. ومع‎ ea os 
تتحقق بعد في اللّغة‎ 5 LUE ŠU, وني العديد من اللات الجر ماني‎ b 
كبيرًا في مُعجماتها المعاصرة [المكتوبة أو المنطوقة] ومُعجيات‎ La العربيّة التي تُعاني‎ 

Ez والمعجمات الاصطلاحية والتعليمية والتار‎ egli 


po -Y,N‏ المدّوّنات iu‏ ية في تعليم اللغات 

ied ais‏ التفس الأمريكيّ «إدوارد ثورنديك» - سالفة SI‏ - الطَريقَ إلى 
استخدام المدَوّنات b a‏ في تعليم اللغات. . ونتج عن هذه التجربة ab‏ ما يُعَرَفْ 
ب «قوائم الكلمات الشّائعة) à (Lists of common words)‏ العديد ERU o^‏ ب 
في ذلك العربيّة Ld‏ هذه القوائم من خلال cd Au co A Jel‏ المعييين 
بتعليم اللّغة العربيّة. وكان من هذه ecu rue Jui de de- NEY‏ 
المغردات الشائعة في العربية الحديثة») (A list of Modern Arabic words)‏ التي 
n‏ «إوينج (Ewing Macready Bailey)‏ في عام 8 : والدراسة الموسومة 
ب olo‏ الشّائعة في اللّغة العربيّة لداود عبده / في AAVA‏ والدّراسة الموسُومة ب 
«قائمة المفردات الشائعة pone‏ في البلاد العربيّة» لرشدي طعيمة / في ۱۹۸۲ . 


eo‏ أن LÁ AD causat‏ يعمد عليها في إعداد ea‏ هذه القوائم و 
بالضّرورة عن واقع اللّغة -إذ يتم اختيارٌ نُصُوصِها Glate‏ في كثبر من الأحيانه إل 
أن الفكرة ذاتا JE‏ وسيل S4 Elas‏ تطويرها منهجيا منهجيًاء ul E Le‏ اللغة 
إلى التعرّف YS‏ على المفرّدات 459 5 Ug‏ في نطاق المستوى اللي الذي تُعنى به 
دراستهم» e e‏ التي تليهاء وهكذا. 

ولا ÉL Aa:‏ الإحصاتيّة على yel LÍ‏ لأغراض تعليميّة على 
DAN td t Ub seti‏ التي Ai adi es‏ شاع عل تله 
القوعد AL ec‏ ففي اللخة العربيّة مثا - Spe iK‏ على المدوّنات اللْعَويّة 
الممثلة RU un‏ [على مستوى البنية] في حصر الأوزان FEAT‏ السائعة للأفعال 


Ade 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE NN‏ ااا 


والمشتقات والمصادر بأنواعها؛ كما See S‏ عليها في حصر الصّيَْ الشائعة لكل 
نوع من المشتقات على d Eie‏ عل اسبتوق التركيب] فيمكن الإفادةٌ من SUSI‏ 
E‏ التَعرّف على المواقع الإعرابيّة الأكثر تردّدًا s ee Lá‏ وكذلك في حصر أنماط 
ا الأمر الذي يُساعدُ على معرفة أكثر DEYI‏ الك PERETE‏ 
خخصائص الثم العريكة من Ul ABS Le‏ وتتئعات أقسايها. 


: ومن ناحية أخرىء X i DLSU E‏ دورًا كبيرًا في Ap‏ المناهج التعليمية 
للغات في مراحل التعليم المختلفة إذ من E‏ يُمكنُ توجية الأب إلى واقع i‏ 
الملموس» بعيدًا عن التعقيدات Al‏ قد لا يُفيدونَ منها في واقعهم أو مستقبّلهم» 
فنجتبهم C Ao MI‏ والمهجور. ولعلا تست EA‏ ذلك بانط إل جعاناة 
S‏ المراحل الأساسيّة في فهم مناهج eaa‏ لاسا قواعد الحو العري . ذلك 
أن Ca‏ يكون G3‏ بدراسة القاعدة KAI‏ التي يحويها ed ell‏ بصرف 
ÉI‏ عن الاستخدام الفِعلّ ها . ونرى أن SUI‏ العلمية o2‏ - في أحيانٍ كثيرة - تبدو 
ie‏ عن اللغة التي uU‏ الطَّلابُ قراءة أو tla‏ ناهيك عن ضَعف مُستوى 
St‏ تيج القصور في تأهيلهم» o‏ إلى عدم eid‏ على JÄI‏ مع ie‏ 

g Je 6‏ هذا الصّدَد به راء مرا على اللاب في دراستهم للنّحو العري. 
من ذلك أن بعص المناهج CUI EU Ce‏ بدراسة باب O)‏ وأخواتها) بل ما 
eut‏ من قواعد أساسيّة. CJUI AE,‏ في a2»‏ هذا الباب إلى الأفعال tL)‏ 
zb‏ ا ت eda ol‏ الأفعال. ليست شائعة e‏ غيرهاء xx ol y‏ 
يدرسّها e eoe Uli OY‏ عليه دراستهاء وإن لم يسمعها من قبل أو يستخدمها؛ às‏ لن 
يستخدمها - كذلك - في مستقبله. 

ومع el‏ أن يتعرَفَ JÉN‏ على جال لَه ipd‏ إلا أن تقديم بعض القواعد 
أو الأساليب التادرة في مرحلةٍ تعليميّ EIST‏ سوف ŠE‏ الضّرورة على مُستوى تحصيليه؛ 
Cn Ra;‏ إلى إهمال deli‏ وأساليب أكثر : PET‏ نعخياقا عا وج ال وة 
aas‏ معدا irs à is d qna o LR I‏ 

ولو ol‏ ادر نات cab SES‏ لحصر الشائع [المستخدم فعليًا] من المفرّدات 
وال idolo cesi‏ وجه اللات EA]‏ لأمكنّ الارتقاءً بمُستواهم 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


التَعلِيمِيَ إلى درجة كبيرة» إذ يُوَجَهُونَ e A os I‏ إلى قواعد KE‏ من واقع ee‏ الذي 
TUER:‏ مضو كانه هذه اللخ تكن ERN‏ 


V 


PE] 


NT اللغات‎ Lud à x و 4- استخدام المدّوّنات‎ 


AUI co AU على‎ ise à اللّغات الطَّيعية الي تع‎ Ua من تطبيقات‎ a i 

في مراحل إعدادها وتقيبمها؛ 3d,‏ نوع ADI oiii‏ المسكخدمة وخحصائِضها وف 

لطبيعة التطبيق وا هدف المنشود منه SAY oe.‏ على دور المدَوّنات AUI‏ في 
اة odit‏ الل خلال بعض التطبيقات على التحو JÖN‏ 


لالت ران الوادت دونه َو متوازية أو a‏ بين اغات 


اذامب آي يع الم ارم لش كم JA tese‏ قاعدة يانات 
y‏ بمفرّدات اللغة المصدر وما انلها من مفرّدات X ili‏ 


N‏ التدقيق الإملائيّ :2553 إعدادها o p ga‏ تُعنى الأولى بمرحلة 
التَدرِيب؛ وينبغي Ei da ol‏ الإملائيّة .585 منها في إثراء 
مُعجم الآليّة وقواعد بيانات الثظام البريَيّ؛ وتُعنى الأخرى بمرحلة التقييم» 
Rid s‏ ماما من SUD A pto o end‏ منها في اختبار الآليّة وتعيين مُعَدّل 
الخطأ في نتائجها. 

آله تشكيل النصُوص: وهي تطبيقٌ خاص GÜL‏ العربية ua i‏ 5 بظاهرة 
الإعراب s‏ بنظام كتا برها عن غيرها من eiL, JI‏ هذه 
i MESSER‏ مشكولة S‏ بحيث يُمكن UYI‏ منها في تحديد ái‏ 
الإحصائيّة E‏ التي ستعتمدٌ عليها حوارزمات SI‏ 

A‏ فك Y‏ الدلال: ese A si bei‏ بال متصاحبات 
à ST‏ والتعبيرات الاصطلاحيّة والكليات E‏ تحمل دلالاتِ Aidan‏ 
UL,‏ من هذه ES‏ في إثراء قواعد بيانات التظام المنشود بالمفردات 
ودلالاتهاء وتدريب خوارزمات فك الالتباس باستدعاءِ معاني الكلات ذات 
الدّلالات المتَعَدَّدةِ من الكلمات المصاحبة ديكا ف اا و 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO EN‏ 


alo cols JA oe -۸‏ مُستقبلية 
1i‏ لثدرة الذراسات التي كُيَبّت بالعَرَبيّة عن المدوّنات y A AUI‏ وحداثة م: 
J‏ 2 بيه عن 3 3 E‏ 
دراستها على العربية ار e SI an d od ai ol ee‏ 
5 ; & 
A‏ موشوع AUR‏ 
الور dcs i‏ غة الصحافة المصرِيّةالمعاصرة 
«دراسة إحصائيّة d‏ ضوء GA AT‏ 
* مادَّة الدّراسة: 
مدونة لْعَوِيةٌ مكثوبة REA (EAS)‏ من نُضُوص الصّحافة المصريّة المعاصرة. 
POTES 8‏ 
٠‏ ما الخطوات المنهجية لبناء 21594 É S‏ للصّحافة المصريّة المعاصرة؟ 
e‏ أساليبٌُ التحليل الإحصائيٌ لنصوص SAN‏ اللْعَويّة موضوع الدّراسة؟ 
* منهج الدّراسة» ومجال البحث: 
تقوم الدّراسة So AL‏ على المنهجين: الوصفيٌّ eg Es‏ ويَتتوّعُ جال البحث 
بن الإحصاء (e JUI‏ ولسانيات BIU‏ 
* المراجع الأَوَلِيّة المقرحة: 


عبد العزيز Ja zm)‏ حسن): لغة الصحافة المعاصرة» دار الفكر العربي» القاهرة» Ab‏ 
et Y‏ 


Patten, M. L. (2007). Understanding research methods: an overview 
of the essentials. Pyrczak. 


AP. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 | ا 


۸ - موضوع الفكرة الثانية: 
A Z " 2 £‏ 
الأطلس اللغوي للعربية الدارجة في مصر 
«دراسة وصفيّة في ضوء a‏ منطوقة» 
* مادّة الدراسة: 


$4 2 ?s 229.25 


RT SA‏ منطوقة مُتَمَدَةٌ من نُصُوص اللّخة العربيّ في مصرء أو d‏ إحدى 
FREIE TT‏ 
٠‏ الأسئلة البَحؤِيّة: 
ما المعايير التي ينبغي توافرٌها في الأطلس G AUI‏ منشود؟ 
ما الخُطُواتٌ المنهجية لبناء BSA‏ مويه منطوقة للعربيّة الدّارجة في مصر 
e‏ كيف يُمكن LYI‏ من الأطلس G ADI‏ للعربيّة e JI‏ في صر في دراسة 
E pa KELU K AD A‏ العاصرة؟ 
* كيف يُمكن توظيف المدّوّنة AEN‏ المنطوقة [أداة الدّراسة] في بناء أطلس 
* منهج الدّراسة» ومجال البحث: 
تقوم i ll ial ill‏ على المنهج الوصفيٌ» Jle y‏ البحث BSM coL‏ 
e‏ المراجع الأَوَلِيّة المقتّرّحة: 


عساكر (خليل): الأطلس cs XUI‏ مجلة مجمع اللغة العربيّة بالقاهرة, e e‏ السابع» 
gp AER YAT - YAY uo‏ 


BergstráDer, G. (1995) Sprachatlas von Syrien und Palästina. 
Leipzig, J.C. Hinrichs. 
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-YA‏ موضوع الفكرة الثالثة: 
المعجّم التكراري للغة العربيّة المعاصرة 
«المنهج والنموذج في ضوء 3335 لَعَويّة) 
و az‏ 7[ ب ^ 
Ret "UN‏ مكتوبة ) نصية) ais God‏ من نُصُوص اللغة العربيّة المعاصرة. 
وتتنوّعٌ Ead ESL‏ الآداب العربيّة» ولّغة الصّحافة» والمعارف العامّة. 
٠‏ الأسئلة البحثية: 
malls *‏ بالمعجات التكراريّة؟ وما مكانتها في اللّغة العرييّة؟ 
* كيف يُسِتَفَادُ من المعجم المنشود في تعليم العربيّة لغير eile DI‏ بها؟ 
* منهج الدّراسة» ومجال البحث: 
تقوم الدراسة المقترّحةٌ على المنهج الوصفيٌّء dle EE s‏ البحث بين الإحصاء 
اللغويّ SEL y‏ المدَوّنة وعلم اللغة الحاسوبي. 


Zia 


€ 9 
هندسة اللّة العريية واللّسائئّات‎ «RETREAT 
LINGUISTICA COMMUNICATIO (International journal of العامّة»‎ 


^U «Arabic Language Engineering & General Linguistics)‏ « المغرب» 
YNA AA C^‏ 


(Éile A ات 3 مُعاحة‎ anl التكزاري‎ ean ol s ant وسالة‎ d هذه الفكرة‎ Jais GSi - ١ 
بحدي, بإشراف المؤلف.‎ ARE للباحث‎ 
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8, 4- موضوع الفكرة الرّابعة: 
تقييم أدوات التّحليل AI‏ كيبي في اللّغة العربية 
«وراسة K Al‏ حاسوبيّة في ضوء مُدَوَّنة É A‏ مَُنونة) 
m e‏ 
x5‏ 1 يكتوية )25( Ces 3 ducta‏ ُستَمَدَةٌ من i‏ تصوص RU‏ 
a‏ المعاصرة» وتتنوّعٌ مادّتها بين الآداب العربية a‏ الصحافة. 
e‏ الأسئلة البحزيّة: 
* كيف نبني $32 d‏ لتقييم المحلّلات es AI‏ العربيّة؟ 
* إلى cel‏ مدّى يُمكن الإفادةٌ من XJ‏ التحليل التّركيبيٌ في العربيّة؟ 
٠‏ ما أهجٌ الأساليب الإحصائيّة o‏ يُمكن الإفادة منها في مراحل fel‏ 
* منهج الدّراسة» ومجال البحث: 
تقومٌ الدّراسة iA‏ على eel!‏ الو صف ES‏ محال البحث بين الإحصاء 
(e AUI‏ ولسانيّات BSU‏ وعلم اللّغة الحاسُوي. 
* المراجع الأوَلِيّة المقترّحة: 
os‏ (1م): al NU‏ «مَعناها AI cla‏ المصريّة العامة للكتابء القاهرة» 
YL‏ 191/9م. 


Attia, M. & Rashwan, M., A Large-Scale Arabic POS Tagger 
Based on a Compact Arabic POS Tags Set, and Application on 

the Statistical Inference of Syntactic Diacritics of Arabic Text 
Words, The Proceedings of the Arabic Language Technologies and 
Resources Int'] Conference; NEMLAR, Cairo-Egypt http://www. 
elda.org/nemlar-conf, Sept. 2004. 
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اوبرض لكر Be‏ 
I D eie‏ الحديثة بين العربيّة والإنجليزية 
«في ضوء مُدَوّنة É A‏ مُتَوازية» 
* مادّة الدّراسة: 
ER‏ مكثوبة ES‏ ومتوازية AREA‏ من لّغة الصّحافة ا معاصرة. 
jJ‏ ال ا المصدر)ء SEs‏ الإنجليزيّة CEREAN‏ 
٠‏ الأسئلة البَحئيّة: 
E iL 32 e gll c iu e‏ لد Hoyt‏ 
e‏ ما أهمٌ الأساليب الإحصائيّة gll‏ يُمكن الإفادة منها في مراحل التقييم؟ 
* منهج الدراسةء ومجال البحث: 
تقوم iA a‏ على المنهجين: الوصفيّ die E33 «QUU,‏ البحث 
بين الإحصاء اللَعَوِيّ ولسانيّات المدّوّنة وعلم اللّغة الحاسُوي. 
٠‏ المراجع SI‏ المقترّحة: 


Joseph Olive (2011): Handbook of Natural Language Processing and 
Machine Translation. Springer. 


Szymon Rutkowski (2012): Machine Translation Evaluation: An 
Analysis of Two Translations Produced by Google Translate and 


English Translator XT. Lambert Academic Publishing. 


Dehcheshmeh, M. (2007). Specialized Monolingual Corpora in 
Translation. Translation Journal. Volume 11, No. 2. 


Carmen Mill N-Varela, Francesca Bartrina (2013): The Routledge 
Handbook of Translation Studies. Routledge. 
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4- من المواقع الإلكترونيّة التعليميّة والإرشاديّة 
http://corpora.wordpress.com/‏ -1 


٠‏ موقع تمهيدي» يعرف CHAT‏ الل ويعرض مجموعة من الأدوات 
الممتخدمة ف AA‏ تصوصها آل 


2- http://arabicorpus.byu.edu/ 

* موقع المدّوّنة اللَعَويّة العربيّة» يستمد مادّته من A‏ العربيّة» ويُمكن الإفادة 
منه à‏ أغراض "C‏ مُتلفة. 

3- http://corpus.byu.edu/ 


o5 E موقع المدوّنات اللْعَويّة الأنجلوأمريكيّة ويَضُهُ-كذلك-‎ ٠ 


للإسبانية والبرتغالية. 
http://faculty.washington.edu/ebender/corpora/corpora.html‏ -4 
٠‏ موقعالموقع o^ is pat‏ روابط المدّوّنات E RAT‏ عديدة» ويعنى بروابط 

مواقع المشروعات اللَعَوِيّة الكبرى. 
http://www.uncorpora.org/.‏ -5 
.موقم aae SU AUI u$‏ وبك جموعا من الوقاتق الى يكن 
الإفادة منها في أغراض بحثيّة ختلفة. 


6- http://www.natcorp.ox.ac.uk/. 
مادّة‎ s p موقع المدَوّنة الوطنيّة البريطانيّة» يُمكن البحث فيه عن المغردات»‎ * 
المدونة بين المكتوب والمنطوق.‎ 
7- http://www.comp.leeds.ac.uk/eric/latifa/index.htm. 
قائمة ببعض‎ Ad موقع الباحثة القَطريّة لطيفة السليطي على موقع جامعة‎ * 
المدوّنات اللَعَوِيّة العربيّة وتعريقًا موجَرًا بها‎ 
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ببليوجرافيا مرجعيّة 
.١‏ السّعيد e)‏ بالله): DSI‏ مُعجَّم عرب مُعاصر: مُعاكَة X Xd‏ حاسوبيّة» رسالة 
ماجستير» جامعة القاهرة» e 0 * A‏ 
Y‏ السّعيد Sell)‏ بالله): مُدَوّنة مُعجَم تاريخيّ للغة العربيّة: مُعاكّة X palo X ad‏ 
أطروحة دكتوراه» جامعة القاهرة» gY* VV‏ 
Abdel-Fattah, Y. (2018). Arabic Corpus Linguistic. Edinburgh Uni-‏ .3 
versity Press.‏ 


4. Adolphs, S.; Carter, R. (2013): Spoken Corpus Linguistics: From 
Monomodal to Multimodal. Taylor & Francis Group. 


5. Aijmer, k.; Altenberg, B. (2014). English Corpus Linguistics. Rout- 
ledge. 


6. Aijmer, K.; Bengt Altenberg, B. (2013): Advances in Corpus-Based 
Contrastive Linguistics: Studies in Honour of Stig Johansson. John 
Benjamins Publishing Company. 


7. Al-Sulaiti, L. (2004). Designing and Developing a Corpus of Con- 
temporary Arabic. “M.Sc. thesis". Leeds University. 

8. Arulmozi, S.; Dash, N. (2018). History, Features, and Typology of 
Language Corpora. Springer. 

9. Baker, P. (2012): Contemporary Corpus Linguistics. Bloomsbury. 


10. Baker, P.; Hardie, A.; McEnery, T. (2006). A Glossary of Corpus 
Linguistics. Edinburgh University Press. 


11. Biber, D.; Reppen, R. (2015): The Cambridge Handbook of English 
Corpus Linguistics. Cambridge University Press. 


12. Brezina, V. (2018). Statistics in Corpus Linguistics: A Practical 
Guide. Cambridge University Press. 


13. Collinge, N. E. (2013): Encyclopaedia of Language. Taylor & Fran- 
cis. 
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14. Collins, L. (2019). Corpus Linguistics for Online Communication: 
A Guide for Research. Routledge. 


15. Crawford, W.; Csomay, E. (2015): Doing Corpus Linguistics. Tay- 
lor & Francis Limited. 

16. Dillmann, L.; Arndt-Lappe, S.; Sand, A.; Hoffmann, S. (2018). Cor- 
pora and Lexis. BRILL. 


17. Ender, A.; Leemann, A.; Wälchli, B. (2012): Methods in Contempo- 
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18. Eric, A. (2017). Sociolinguistics and Corpus Linguistics. Magnum 
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22. Gomez, P. C. (2013): Statistical Methods in Language and Linguis- 
tic Research. Isd. 
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الفصل eu‏ 
الشبكات الدلاليّة 


د. سامح الأنصاري 


-١‏ التحليل الدلالي للجملة: لمحة تاريخية. 

١ة‏ الشبكات الدلالية الخاسوبية العالمية. 

*- المكونات اللغوية للغة الشبكات الدلالية الحاسوبية العالمية. 

5 - موارد وأدوات لغة الشبكات الدلالية الحاسوبية العالمية. 

- تطبيقات المعالجحة الآلية للدلالة باستخدام لغة الشبكات الدلالية الحاسوبية العالمية. 
5- دعوة للمشاركة. 
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يقول عبد القاهر الجرجاني في كتابه (دلائل الإعجاز في علم المعاني): «الألفاظ المفردة 
التي هي أوضاع اللغة لم توضع لتعرف معانيها في أنفسهاء ولكن OX‏ يضم بعضها إلى 
بعض فيعرف فيا بينها فوائد» D]‏ هذا النص فيه إشارة إلى أن الدلالة لا تقتصر على الجانب 
الإفرادي فقط (oL‏ تتعداه إلى الجانب التركيبي النحوي. فلا تتحقق الفائدة بالنظر في 
ا رل ن بمعرفة انان اا من هبي تلك الات ما 
بعض. وإذا كان الفصل الأول من هذا الباب قد تعرض للمعالجحة الدلالية لمفردات اللغة 
فإننا في هذا الفصل نصل لأبعد من هذاء وتحديدًا إلى معالجة الدلالة على مستوى الجملة. 
ولعل التحليل الدلالي للجملة الطبيعية يُعد من أصعب أنواع التحليلات اللغوية OY‏ 
تحليل دلالة عبارة ماء لا بد أن يتم على مستويات متعددة هي معنى مفرداتها (المعجم) 


الكلمات (النحو) والمعاني الخارجة عن التركيب التي تنتج عن ظروف برجماتيّة/ غير 
لغوية (Pragmatic)‏ ولكنها تؤثر في المعنى اللغوي. هذا التعدد في مستويات التحليل 
جعل محاولات المعالحة الحاسوبية لدلالة الجملة الطبيعية في أبكر مراحلها. 

o‏ هذا الفصل ما هو إلا مقدمة لواحدة من المحاولات الطموحة في المعالجة الآلية 
للدلالة على مستوى الجملة العربية تحليلاً وتوليدًا باستخدام «لغة الشبكات الدلالية 
(Universal Networking Language- UNL) ILJI iy pull‏ متضمنة التعريف 
بتلك اللغة الحاسوبية وتقديم وصف نظري وعملي لطبيعة عملها مع عرض لأبرز 
التطبيقات التي يمكن للغة الشبكات الدلالية الحاسوبية العالمية أن تساهم في تطويرها. 
وننتهي أخيرًا بالتعرض لبعض من النقاط البحثية الهامة من أجل دعم خطة طريق 
لمعالحة الدلالة في الجملة العربية. 


Y‏ - التحليل الدلالي للجملة: لمحة تاريخية 

إن التحليل الدلالي للغات الطبيعية ليس بفكرة مستحدثة من حيث المبدأ فلقد بدأ 
التفكير به منذ زمن طويل مضى Se‏ خلالها باتجاهات ومناهج عديدة من أجل الوصول 
إلى منهجية مناسبة لطبيعة ومتطلبات اللغات الطبيعية والتي تتيح بدورها إمكانية 
الوصول إلى تمثيل معرفي لمحتوى تلك اللغات. ولطالما كانت قضية ارتباط التحليل 
الدلالي بالتحليل النحوي تحتل مرتبة عالية من بين القضايا اللغوية المختلفة. وقد أشار 
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النحاة العرب إلى هذا الارتباط على سبيل المثال في تعريفهم للفاعل النحوي أنه من el‏ 
بالفعل في (كتب محمد) أو من وقع عليه الفعل أحيانا في اسقط محمد). 

ويرى كريستوفر بتلر أنه يمكن تمبيز ثلاثة مناهج مختلفة للعلاقة بين التحليل الدلالي 
والتحليل النحوي؛ يقوم أحد هذه المناهج على البدء بالتحليل النحوي» والذي ينتج 
عنه شجرة نحوية؛ يتبعه تحويل هذه الشجرة النحوية إلى تمثيل دلالي. ولكن هذا المنهج 
بعض السلبيات» منها أنه يمثل نموذجا غير معقول للتحليل أو المعالجة التي يقوم بها 
البشر باعتبار أن الفكرة (المعنى) os‏ الذهن أولا ثم يُبنى عليه تركيب الجملة عند 
إنتاجهاء كا أنه لا يقر بإمكانية استخدام المعلومات الدلالية في توجيه التحليل النحوي 
حيث يمكن للتحليل النحوي أن يكون مسئو لاعن إيجاد أكثر من تفسير ممكن؛ وبالطبع 
يستحيل ذلك إذا كان الانطلاق من النحو. وظهر بوضوح المنهج الثاني الذي أشار إليه 
كريستوفر باتلر في نماية الستينيات والسبعينيات؛ ويعتمد على تقليل التحليل النحوي 
وزيادة التركيز على التحليل الدلالي» وقد تم بناء أنظمة تحليل دلالي تعتمد علي هذا 
المنهج منها نظام «الإطار النظري للتبعية (Conceptual dependency) (à Ul‏ 
[Yt]‏ ونظام آخر يعتمد على ما يسمى ب «دلالة التفضيل) Preference seman-)‏ 
[Y'A] (tics‏ وهو نظام لا يتعامل مع القيود الدلالية بين المفاهيم كقيم مطلقة ولكن 
تبعا لمعايير التفضيل. فعلى سبيل المثال الفعل «يأكل» يتميز فاعله بأنه كائن حى إلا أن 
القاعل غير الى لا ستنى يشكل مطلق مئل «إن طابعتى JS‏ الورق» وني هذا إشارة 
للخصائص الدلالية التي لا بد أن à us‏ في المتعلقات الدلالية للأفعال. وقد اقترح 
كل من بيرتن 5555 1١915 ele‏ استخدام «شبكات التحول Augmented) (34, ll‏ 
(Transition Networks‏ من أجل التحليل الدلالي التي تتميز بالوضوح Perspicu-)‏ 
City‏ والقدرة الإنتاجية العالية (Generative power)‏ والتمثيل الدقيق Efficiency)‏ 
Cof representation‏ والقدرة على معالحة الانتظام في الظواهر اللغوية Regulari-)‏ 
(ties‏ وأيضا عموميات اللغة LÍ .(Generalities)‏ المنهج الثالث فيعتمد على الدمج 
بين التحليل النحوي والتحليل الدلالي؛ أي أن يكون هناك تفاعل دائم Saes cea‏ 
الأنظمة القائمة عليه إلى منع إقامة التراكيب عديمة النفع أو غير المقبولة دلاليا من 
خلال السماح لشكل من أشكال التغذية الارتجاعية الدلالية لعملية التحليل النحوي. 
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وقد درس اللغويون الصوريون إمكانية تمثيل المعنى بعيدًا عن ارتباطه بالتحليل 
النحوي من خلال منهجية أخرى تعتمد على إمكانية وضع معنى العبارات اللغوية 
في بنى صورية يطلق عليها تمثيل المعنى ويطلق على بيئة العمل المستخدمة لتوصيف 
نحو ودلالة هذه التمثيلات لغات تثيل المعنى حيث تصف عددا من منهجيات التمثيل 
المعرفي الدلالي منها؛ منهجية «المنطق من الدرجة الأولى» (First-order logic)‏ حيث 
تحتوى هذه المنهجية على القواعد والأصول اللازمة لصياغة نظريات الذكاء الاصطناعى 
كما تعتمد على testa‏ المنطق البولياني (Boolean Logic)‏ ومنطق القضايا 19154 
(tional Logic‏ وتعتبر إحدى منهجيات تثيل المعرفة التي تمتاز بالمرونة وسهولة الفهم 
إذ نها تقدم أساسا حاسوبيا لمتطلبات التحقق والاستنتاج. وكذلك منهجية «التحليل 
الدلالي القائم على النحو» وتعتمد على مبدأ التركيبية وتكمن فكرتها في أن معنى الجملة 
يمكن تركيبه من معاني أجزائها بحيث لا يعتمد فقط على معاني الكلمات التي تكونها 
بل على ترتيب هذه الكلمات في الجملة وطريقة تجميعها والعلاقات e‏ بينها وهذا معنى 
آخر للقول ob‏ معنى الجملة يعتمد جزئيا على البنية النحوية لها. وبالرغم من الجهود 
المبذولة منذ القدم للوصول إلى منهج واضح ونظام فعال للتحليل الدلالي إلا أن كل 
هذه الجهود أسفرت عن مجرد محاولات غير مكتملة وإلى الآن مازال التحليل الدلالي 
من أصعب مستويات تحليل اللغات الطبيعية. 


-Y‏ لغة الشبكات الدلالية الحاسوبية العالمية 

إننا كبشر نستخدم اللغة الطبيعية للتعبير عن الحقائق والمعارف. إن اللغة الطبيعية 
مرنة وشاملة بشكل كبير ESI‏ تتعدد بتعدد الحضارات وتختلف باختلاف الثقافات 
(اللغة العربية والإنجليزية والسواحلية ... إلخ) كما أن اللبس جزءً من طبيعتها التي 
يصعب عليها التخلص منها لكنها تعالجه با يسبق العبارات الملتبسة وما يلحقها من 
نصوص تزيل ذلك اللبسء تيقمكن pen‏ الشري من فهو اعا من خلال سياق 
الحديث وربطه با حيط بالكلام من ملابسات وظروف وحال المتحدث والمخاطب... 
الخ. ولطالما كان يطمح مجال تمثيل المعرفة إلى إيجاد لغة واضحة وغير مبهمة لتمثيل 
المعارف ولتكون اللغة المشتركة بين الجنس البشري والآلات» هذه اللغة يجب أن تمكن 
الحاسوب من التفكير بالمعطيات واستنباط حقائق جديدة من هذه المعطيات ومن 
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ثم حل الُشكلات المتعلقة بمجال الذكاء الاصطناعيّ. ولعل لغة الشبكات الدلالية 
الحاسوبية العالمية تمتلك ما يؤهلها لتحقيق هذا الهمدف؛ إذ أنها جاءت كمحاولة للتوسط 
بين الشكل المعرفي المجرد للمحتوى الذي يعبر عنه البشر في حياتهم اليومية وبين الشكل 
اللغوي الذي يستخدم للتعبير عن هذا المحتوى في شكل Je‏ وعبارات عن طريق des‏ 
المحتوى تمثيلا صحيحا ومتكاملا يختلف عن طريقة تمثيل اللغات الطبيعية له؛ فبين| 
تقوم اللغات الطبيعية بتمثيل المحتوى في صورة مفردات لغة معينة وتراكيب تتبع قواعد 
هذه اللغة» فإن لغة الشبكات الدلالية الحاسوبية العالمية ها مفردات وتراكيب ESE‏ من 
قثيل المحتوى تمثيلا مجردا يحمل كل ما كان يحويه النص الأصلي من معلومات صرفية 
ونحوية ودلالية وبرجماتية في شكل شبكة دلالية دون انحياز لمفردات أو تراكيب لغة 
معينة أو حتى مجموعة من اللغات؛ كأن تنحاز لتراكيب اللغة الإنجليزية أو اللغات 
جرمانية الأصل مثلا. هذا التمثيل الدلالي مكّن لغة الشبكات الدلالية الحاسوبية 
العا مية من لعب دور اللغة الوسيطة بين اللغات الطبيعية. ويوضح الجدول )١-7(‏ 
الفرق بين اللغات الطبيعية ولغة الشبكات الدلالية الحاسوبية العالمية في تمثيل نفس 
المحتوى حيث يظهر منه أن لغة الشبكات الدلالية الحاسوبية العالمية هي لغة وسيطة بين 
جميع اللغات الطبيعية» فجميع اللغات الطبيعية في الجدول C Y)‏ يمكن الربط بينها 
باستخدام التمثيل المعرفي للغة الشبكات الدلالية الحاسوبية العالمية. 

لغة الشبكات الدلالية 
e‏ الحاسوبية العالمية 


Aa‏ العربية: أكل الولد التفاحة 


The boy ate the apple الإنجليزية:‎ 


agt(201168468:64.@past.@ 
entry,110285313:59.@def) 


obj(201168468:64.@past.@ | Le garçon a mangé la الفرنسية:‎ 
pomme 


entry,107739125:77.@def) 


L8: V Yd adl‏ اللغات الطبيعية ولغة الشبكات الدلالية الحاسوبية العالمية لمحتوى 
«أكل الولد التفاحة». 


AA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


وبالرغم من أن لغة الشبكات الدلالية الحاسوبية العالمية هي لغة وسيطة (S‏ ذكرنا إلا 
أنها تختلف عن اللغات الأخرى التي يطلق عليها لغات وسيطة كالإسبرانتو”' مثلاً التي 
هي لغة وسيطة يمكن للبشر zal‏ للتواصل في حياتهم اليومية» لكن لغة الشبكات 
الدلالية لغة اصطناعية مصممة لمحاكاة التواصل الإنساني وعلى مستوى الآلة. 

وقد انطلق برنامج تطوير لغة الشبكات الدلالية الحاسوبية العا ية" عام ١997‏ 
عندما بدأ معهد الدراسات المتقدمة في طوكيو الدعوة لهذا المشروع. وتقوم حاليا 
«مؤسسة لغة الشبكات الدلالية الحاسوبية العالمية)  (UNDL Foundation)‏ بتطوير 
هذا المشروع وإدارته والإشراف على تنفيذه. وقد اشترك في هذا المشروع حتى الآن سبع 
عشرة لغة تقوم مؤسساتها على بناء وتطوير الأدوات والموارد اللازمة لتحليل وتوليد 
هذه اللغات والتي من بينها اللغة الإسبانية والفرنسية واليابانية والبرتغالية والتايلاندية 
رال العربية الى بع Ub‏ جا الكوة ell‏ بها d‏ مرك colL‏ الاسر 
العربية“ في مكتبة الإسكندرية في مصر. 


Y‏ - المكونات اللغوية للغة الشبكات الدلالية الحاسوبية العالمية 

لكى تتمكن لغة الشبكات الدلالية الحاسوبية العالمية من محاكاة وظائف اللغات 
الطبيعية بشكل ناجح كان لا بد أن يكون ها نفس خصائص اللغات الطبيعية ومكوناتها 
اللغوية من مفردات .(UNL Vocabulary)‏ وعلاقات دلالية تربط بين الكليات 
(UNL Relations)‏ وتمثل نحو لغة الشبكات الدلالية الحاسوبية العالمية» وهى ما 


MAN الإسبرانتو لغة مصطنعة سهلة» اخترعها لودفيغ أليعزر زامنهوف كمشروع لغة اتصال دولية عام‎ -١ 

؟-جدير بالذكر أن للغة الشبكات الدلالية الحاسوبية إصدارين؛ الأول كان في بداية إطلاقها واستمر لعدة أعوام بعدها 
خضعت لغة الشبكات الدلالية الحاسوبية لمرحلة تطوير وتحسين نتج عنها إصدار جديد أطلق عليه 3+:آ0211] هذا 
الإصدار هو نفسه الذي نتعرض له في هذا الفصل بالشرح والتفصيل ولم GU‏ على ذكر الإصدار الأول لكن بالإمكان 
معرفة المزيد عنه عن طريق هذا الرابط: LÍ chttp://www.undl.org‏ الإصدار الثاني فيمكن متابعته عن طريق هذا 
الرابط : .http://www.unlweb.net/unlweb‏ 

Y‏ لمعرفة المزيد عن المؤسسة وأنشطتها يُرجى اتباع هذا الرابط: 

/http://www.undlfoundation.org/undlfoundation 

5 - إسهامات المركز العربي في دعم لغة الشبكات الدلالية الحاسوبية يمكن متابعتها من خلال هذا الرابط الخاص بالمركز 
العربي في مكتبة الإسكندرية: http;//www.bibalex.org/unl/Frontend/home.aspx‏ 
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يقابل تراكيب الجمل في اللغات الطبيعية من فعل وفاعل ومفعول وتختلف في اللغات 
الطبيعية من لغة إلى أخرى بحسب نظام اللغة لكنها ثابتة في لغة الشبكات الدلالية 
الحاسوبية العالمية» وخصائص تحمل المعاني الناتجة عن الظروف غير اللغوية UNL)‏ 
(Attributes‏ وأنطولوجيا للمفاهيم (UNL Ontology)‏ . وهذا ما يتناوله هذا الجزء 
بالشرح والإيضاح. 

(UNL Vocabulary) مفردات لغة الشبكات الدلالية الحاسوبية العالمية‎ -١ Y 

إن المفردة هى وحدة اللغة التى تحمل المعنى» وبالنسبة للغات الطبيعية فإن شكل 
المفردة يختلف باختلاف اللغة dis‏ الرغم من أن المعنى واحد. ولأن لغة الشبكات 
الدلالية الحاسوبية العالمية لا تنحاز لأي لغة طبيعية فقد قامت بتمثيل المفردة بطريقة 
مجردة بعيدا عن الشكل المرتبط بلغة بعينها حيث يتيح نظام لغة الشبكات الدلالية 
الحاسوبية العالمية التعبير عن المعنى دون المبنى في صورة ما يسمى «بالكلمات العالمية») 
Universal Words)‏ وهي تمثل المعاني المجردة التي تعبر عن المفاهيم الإنسانية مثلها 
مثل كلمات اللغة الطبيعية o‏ فيها من أساء وأفعال وصفات وأحوال. ويرجع وصف 
مفردات لغة الشبكات الدلالية بالعالمية إلى أن مدلول هذه المفردات واحد بالنسبة لكل 
اللغات الطبيعية مثلها مثل إشارة المرور بألوانها الثلاث فكل لون له مدلول ثابت لا 
يمكن الاختلاف عليه في جميع أنحاء العالم مها اختلفت اللغات وتعددت الثقافات ومن 
هنا كان للكلمات العالية القدرة على التوسط بين جنيع اللغات الطبيعية. 

ويوضح الشكل )١-7(‏ مثالا على ذلك فنفس المفهوم الذي تعبر عنه اللغات 
المختلفة ببنى مختلفة تقوم لغة الشبكات الدلالية الحاسوبية العالمية بالتعبير عنه بشكل 
مختلف يتوسط جميع تلك اللغات فيكون بإمكاننا أن نستبدل البنية الإنجليزية أو العربية 
أو الفرنسية أو الإسبانية للمفهوم بالكلمة العالمية دون انحياز للغة ما أو اختلاف على 
المعنى الذي تحمله المفردة. 


-١‏ لمعرفة المزيد عن الكلمات العالمية برجاء اتباع هذا الرابط: 
http://www.unlweb.net/wiki/index.php/Universal Words‏ 
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الشّكل 1-7 : يوضح توسط الكلمة العالمية بين اللغات الطبيعية. 

وخلافا لمفردات اللغات الطبيعية فإن مفردات لغة الشبكات الدلالية الحاسوبية 
العالمية تخلو من أشكال الالتباس» فعلى سبيل المثال كلمة «فصل» في اللغة العربية يمكن 
استخدامها للتعبير عن أكثر من مفهوم مثل «فصل في كتاب» أو «فصل من فصول السنة) 
أو «عملية تفريق شيء عن آخر» وغيرها من المعاني المختلفة ما قد يسبب غموض ناتج 
التعبير عن المعاني المختلفة دون لبس أو غموض حيث يوضح الجدول (Y-Y)‏ طريقة 
التعبير عن كلمة «فصل» باستخدام مفردات لغة الشبكات الدلالية الحاسوبية العالمية 
فنفس الكلمة العربية يقابله أربع كلمات idle‏ تعبر عن المعاني المختلفة هذه الكلمة 


العربية. 
الكلمة العربية الكلمة العالمية المعنى 
۹11۲ فصل في كتاب (جزء من كتاب). 
١١‏ فصل من فصول السنة الأربعة. 
١٠‏ حجرة دراسية في مدرسة. 
٠00‏ عملية تفريق شىء عن آخر. 


الجدول Y-Y‏ التعبير عن ll‏ ا مختلفة لكلمة «فصل» باستخدام لغة الشبكات الدلالية الحاسوبية العالمية. 
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وقد يتبادر إلى أذهاننا أن الكلمة العالمية هى كلمة مكونة من أحرف كعادة كلمات 
اللغات الطبيعية» ولكن على خلاف ذلك فإن الكلمة العالية يتم التعبير عنها برقم 
كودي. هذا الرقم مأخوذ من شبكة الكلمات الإنجليزية (WordNet)‏ وقد استخدمت 
هذه الأرقام للتعبير عن مفردات لغة الشبكات الدلالية الحاسوبية العالمية لعدة أسباب 
منها أن شبكة الكلمات الإنجليزية عبارة عن شبكة دلالية متكاملة للكلهات الإنجليزية 
(حوالي ١١1,754‏ مفهوم) وتحتوي على معلومات عن معاني هذه المفاهيم والعلاقات 
الأنطولوجية بينها وبين المفاهيم الأخرى داخل شبكة المعاني. بالإضافة إلى أن هناك 
محاولات فعلية من قبل العديد من اللغات منها اللغة الفرنسية والحندية لبناء شبكة 
olds‏ فرنسية (French WordNet)‏ وشبكة كلمات هندية (Hindi WordNet)‏ 
اعتمادًا على شبكة اللغة الإنجليزية» فإذا تم استخدام نفس _الشقرات الرقمية ge pl‏ 82 
داخل الشبكة الإنجليزية للتعبير عن الكلمات العالمية في لغة الشبكات الدلالية سيجعل 
من السهل على كل لغة من اللغات المشاركة في برنامج لغة الشبكات الدلالية بناء شبكة 
كلات خاصة بلغتها. 

(UNL Relations) العلاقات الدلالية‎ -Y , Y 

عدف لغة الشبكات الدلالية الحاسوبية العالمية إلى بناء شبكة دلالية ille‏ لأي جملة 
طبيعية تعبر عن محتوى تلك الجملة حيث تتشكل تلك الشبكة عن طريق ربط المفردات 
بعلاقات تعبر عن الدور الدلالي لكل مفردة داخل الجملة مثل علاقات الفاعل الدلالي 
(Agent)‏ والمفعول الدلالي (Object)‏ والمكان (Place)‏ والزمن (Time)‏ ... وغيرها 
من العلاقات الدلالية المختلفة التي تربط بين كل كلمتين على حده في الجملة ويتم 
التعبير عنها برموز مكونة من ثلاثة أحرف مثل: agt‏ (فاعل) obj s‏ (مفعول) plc‏ 
(مكان) tim‏ (زمن) .... الخ. ويبلغ عدد العلاقات الدلالية الموجودة بلغة الشبكات 
الدلالية الحاسوبية العالمية حوالي EX‏ علاقة تعبر عن جميع العلاقات الدلالية الممكنة بين 
كلمات الجمل في أية لغة طبيعية. ومثال على ذلك الجملة العربية :)١(‏ 

سيلعب الفريق المباراة النهائية في القاهرة يوم الجمعة القادم )١(‏ 

فالعلاقات الدلالية التي تربط بين كلمات هذه الجملة هي علاقة عة أو فاعل دلالي 

بين «(سيلعب» و«الفريق» وعلاقة obj‏ أو مفعول GI LTD s (ele og do‏ وعلاقة 


zig us 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


عام أو مكان بين «سيلعب» Qs‏ القاهرة» وعلاقة tim‏ أو زمن بين «سيلعب» و(يوم 
الجمعة». ويختلف التعبير عن أجزاء الجملة بعلاقات دلالية على حسب معنى الجملة 
فليس كل فاعل نحوي هو فاعل دلالي» فمثلا العلاقة الدلالية بين «لعب» y‏ محمد) 
في جملة «لعب محمد) وهي علاقة فاعل دلالي (ag)‏ تختلف عن العلاقة الدلالية بين 
«انكسر» و«الزجاج» في جملة «انكسر الزجاج» وهي علاقة مفعول دلالي (obi)‏ على 
الرغم من اتفاق العلاقة النحوية (فاعل نحوي) حيث أن «الزجاج» واقع عليه الفعل 
ولیس قائم x"‏ 

“(UNL Attributes) [dl Y , Y 

إن الكلام البشري يحمل الكثير من المعاني الضمنية التي لا يمكن التعبير عنها 
بالكلمات ولكن تفهم من خلال طريقة القول أو تنغييات الجمل أو نبرة الصوت» 
فكيف للحاسوب الوصول هذه المعاني وفهمها والتعامل معها وهي ليست معلومات 
صرفية ولا نحوية ولكنها تتضح من سياق الكلام وطريقة التعبير كا أنها مهمة لنقل 
المعنى السليم وقد تؤدي لاختلاف معاني الجمل مثل جملة cas ET‏ عملك اليوم» يمكن 
أن تعبر عن استفهام أو عن استنكار وفقا لما يقصده المتكلم. وقد وضعت لغة الشبكات 
الدلالية الخاسوبية العامة طريقة للتعبير عن هذه المعلومات عن طريق جموعة من 
الرموز الإضافية (السمات) التي تستخدم في التحليل الدلالي لإضافة المعلومات 
التي لم يتم التعبير عنها بمفردات لغة الشبكات الدلالية أو بالعلاقات الدلالية إذ LE]‏ 
es‏ للتعبير عن ثلاثة أنواع من المعلومات؛ أولاً: معلومات عن دور المفهوم داخل 
الشبكة الدلالية مثل السمة (entry?‏ ومعناها «المدخل للشبكة الدلالية» وتمثل 
المفهوم الأساسئ (Main Predicate)‏ وتوضع لتوضح الكلمة التى تمثل «مدخل» 
الشبكة الدلالية» هذا المدخل ترتبط به المفردات الرئيسية داخل الشبكة الدلالية بشكل 
مباشر والمفردات الأخرى بشكل غير مباشر» ويعد بمثابة مفتاح الشبكة الدلالية. 
والتأنيث والعدد وغيرها من المعلومات فعلى سبيل المشثال لتمثيل Jal‏ 


١-لمعرفة‏ المزيد عن السمات في لغة الشبكات الدلالية الحاسوبية يُرجى اتباع هذا الرابط: 
http://www.unlweb.net/wiki/index.php/Atributes‏ 


zd aM as 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


«يكتب) تستخدم السمة (present)‏ للتعبير عن الزمن المضارع وتوضع 
على الرقم الكودي للمفهوم »5« مثل »200993014 .0165652160)». والسمتين 
de‏ @» و indef»‏ لتحديد التعريف والتنكير للكلات والسمتين «female?‏ 
و«70216©» للتعبير عن التأنيث والتذكير للكلمة S‏ في «male(2.110020890»‏ 
و( dI .«female(2).110020890‏ معلومات خاصة بالسياق مثل السمة @polite‏ 
والتي تصف التهذيب في عبارة «وتفضلوا سيادتكم) و (Qexclamation‏ والتي تعبر 
عن التعجب كما في جملة «يا له من منظر رائع» وغيرها من السات الأخرى. 


“UNL Ontology) الأنطولوجيا اللغوية‎ - 5 , Y 
لكى تكتمل المكونات اللغوية للغة الشبكات الدلالية كان لا بد ها أن يكون لدا‎ 
مكون آخر يشبه مكرنات اللغات الطبيعية الى غفل القدرة اللغوية للانسان آلا وهو‎ 
هى م الكت‎ dad E af Leopold at رقع‎ Le NI 
العالمية ولكن في بناء شجري تُرتب فيه الكلمات العالمية بشكل هرمي طبقا للعلاقات‎ 
and oan: الأنطولوجية بينها. هذه العلاقات تعبر عن ارتباط اللات العالية مع‎ 
(Y) والمثال‎ Gof) وعلاقة «مثال ل»‎ (icl) «نوع من»‎ BAe بعلاقات هرمية مثل‎ 
يوضح شكلٌ أحد مداخل الأنطولوجيا. وهو يعني أن التفاحة وهي ما يعبر عنها‎ 
هي نوع من الفاكهة وهي‎ C VY YYO) بالكلمة العالمية الأول من جهة اليسار‎ 
ويعبر عن هذا‎ ».)١١71159151/( ما يعبر عنها بالكلمة العالمية الثانية من جهة اليسار‎ 
في النهاية يعبر عن صحة هذه العلاقة الأنطولوجية‎ ١ الرقم‎ LÍ )101( باستخدام علاقة‎ 

بين الكلمتين العالميتين. 


(Y) icl(«[[107739125]];[[ 113134947]]-1; 


ولعل ذلك يوضح أهمية الأنطولوجيا في لغة الشبكات الدلالية الحاسوبية العالمية 
حيث أن ede‏ المنهجية يمكن للغة ال هدف التعرف على معنى مفهوم ما مرتبط بثقافة 
اللغة المصدر G)‏ حالة الترجمة). فمثلا يمكن للغات الأخرى التعرف على مفهوم كلمة 


-١‏ يمكن معرفة المزيد عن الأنطولوجيا اللغوية عن طريق هذا الرابط: 
http://www.unlweb.net/wiki/index.php/Ontology‏ 


ع8 ٠ا-‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


«الإحرام» في العربية بالرغم من عدم وجود البعد الثقافي لهذا المفهوم في تلك اللغات. 

ويرتبط بالأنطولوجيا ما يسمى بقاعدة معرفة لغة الشبكات الدلالية الحاسوبية 
العالمية (UNL Knowledge Base)‏ وهي تختلف عن الأنطولوجيا من حيث نوع 
وطبيعة العلاقات فتضم قاعدة المعرفة شبكة من الكلمات العالمية تربط بينها علاقات 
لغة الشبكات الدلالية بينم تحتوي الأنطولوجيا على علاقات هرمية فقط كا هو موضح 
في المثال (Y)‏ وعلى هذا فإن قاعدة المعرفة تشتمل على الأنطولوجيا ولكنها أعم وأشمل 
كما يتضح ذلك من المثال (Y?)‏ ففي المثال (1D) )١(‏ نجد نفس العلاقة الهرمية بين الكلمتين 
العالميتين )9 Cue YVES, Qe Y8Y‏ كم في المثال (7)» وبالإضافة إلى ذلك 
نجد نوعا آخرا من العلاقات ىا في (ب) حيث لا يمكن تحقق العطف بين علاقتين 
إحداهما Cagt)‏ والأخرى ليست «(agt)‏ فإذا كان هناك × و y‏ بينهما علاقة (agt)‏ و 5X‏ 
ل ليس بينهم علاقة (agt)‏ لا يمكن العطف بينهم. ويدل الرقم ٠‏ في Je Ate‏ على 
عدم تحقق العلاقة. 


Î- icI(<[[100001930]];[[100001740])=1; 
-ب‎ and(agt(G;y);^agt(x;y))-0; 


(Y) 


وني ختام هذا العرض للمكونات اللغوية للغة الشبكات الدلالية الحاسوبية العالمية» 
يوضح الشكل (Y-Y)‏ الشبكة الدلالية الحاسوبية للجملة العربية في المثال رقم (E)‏ 
التي تم تمثيلها باستخدام المفردات العالمية والعلاقات الدلالية والسمات لتشترك جميعا 
للتعبير عن معنى الجملة. وقد أمكن التعبير عن المعنى المجرد هذه الجملة دون الشكل 
المقيد بلغة ويمكن لأي لغة طبيعية فهم هذا التمثيل وذلك يجعلنا نشعر بدقة معنى 
العالمية في لغة الشبكات الدلالية الحاسوبية العالمية. ويمكن قراءة الشبكة الدلالية بدءً 
من المفهوم الذي يمثل المدخل والذي يحمل السمة 2620906١‏ فهو المفهوم الأساسي 
للشبكة الدلالية. أما الشكل (Y-Y)‏ فيعبر عن الجملة العربية مكتوبة بلغة الشبكات 
الدلالية الحاسوبية العالمية. والجدول رقم (Y-Y)‏ يوضح المقابل العربي لكل مفهوم من 
مفاهيم تلك الشبكة الدلالية. 


—\ +0- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


استفادت من هذه القروض ست دول )£( 


90461.11 لفهوم ب المقابل باللغة العريية 


الشبكات الدلالية 
11339895.@p1.@‏ 76 استفاد 
proximal.@def‏ ا 
1غ م8٠‏ دول 
١77‏ قرض 
الشّكل 73-1 : الشبكة الدلالية الحاسوبية لحملة العربية. الجدول Y- Y‏ المقابل باللغة العربية mall‏ الشبكة الدلالية. 
{unl}‏ 


a0j(202290461:00.@past.@entry,108544813:1Z.@p1) 
obj(202290461:00.@past.@entry, 113398953:0Y.@p1.@proximal.@def) 
qua(108544813:1Z.@p1,6:1N) 

{/unl} 


الشكل *«-: الجملة العربية مكتوبة بلغة الشبكات الدلالية الحاسوبية العالمية. 


5 — موارد وأدوات لغة الشبكات الدلالية الحاسوبية العالمية 

بالإضافة إلى ما تم ذكره عن المكونات اللغوية للغة الشبكات الدلالية الحاسوبية 
العالمية نتعرض في هذا الجزء لموارد وأدوات لغة الشبكات الدلالية الحاسوبية العالمية 
والمتمثلة في قواميس (Dictionaries)‏ وقواعد صورية (Formal Rules)‏ ور کات 
لغوية (Engines)‏ والتى تتلخص مهمتها في تحليل النصوص الواردة من اللغات 
الطبيعية وتمثيل معناها في شكل شبكة دلالية والعكسء أي فك الشبكة الدلالية إلى 
أي لغة طبيعية في شكل جملة صحيحة تتهاشى مع مفردات وتراكيب اللغة المدف سواء 
كانت إنجليزية أو عربية أو فرنسية ... الخ. 

والشكل (5-7) يعبر عن رسم توضيحي لآلية عمل موارد وأدوات لغة الشبكات 
الدلالية الحاسوبية العالمية. فتقوم أدوات التحليل بتحليل النص المكتوب باللغة 
الطبيعية باستخدام موارد اللغة المصدر (قواعد التحليل وقاموس التحليل) بالإضافة 
إلى موارد لغة الشبكات الدلالية (قاموس لغة الشبكات الدلالية CUNL‏ والذي يحتوي 


5 وا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


على الكلات العالمية وما تحتاجه من خصائص ومعلومات خاصة بكل كلمة وكذلك 
الأنطولوجيا الخاصة بلغة الشبكات الدلالية ليخرج النص المكتوب باللغة الطبيعية في 
صورة شبكة دلالية. 

وتقوم أدوات التوليد بإعادة فك التمثيل الدلالي المتمثل في النصوص المكتوبة بلغة 
الشبكات الدلالية إلى أي لغة طبيعية مطلوبة باستخدام موارد اللغة الهدف (قاموس 
التوليد وقواعد التوليد) وكذلك موارد لغة التواصل العالمية أيضا (قاموس , (UNL‏ 
والأنطولوجيا الخاصة بلغة الشبكات الدلالية لتخرج في النهاية الجملة باللغة الطبيعية. 


أداة التحليل اليدوي 
(UNL Editor)‏ 


أداة التوليد الآلي (EUGENE)‏ هزر النص باللغة الطبيعية 


الشكل -Y‏ : آلية عمل موارد وأدوات لغة الشبكات الدلالية الحاسوبية العالمية. 


-١ 5‏ قاموس لغة الشبكات الدلالية الحاسوبية العالمية“ 


يعد القاموس بمثابة القلب الذي يضخ لأي نظام لغوي ما يلزمه من معلومات لكي 
يعمل بشكل جيد وفعال لذلك يجب أن تتوافر فيه المواصفات اللغوية التى تمكنه من 
أداء هذا الدور. وقاموس لغة الشبكات الدلالية الحاسوبية العالمية هو حجر الزاوية في 


عمليتي التحليل والتوليد والذي تنوافر فيه كل المعلومات اللازمة للوصول إلى الشبكة 


-١‏ لعرفة المزيد عن قاموس لغة الشبكات الدلالية الحاسوبية يرجى اتباع هذا الرابط: 
http://www.unlweb.net/wiki/index.php/Dictionary Specs‏ 


لاوا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


الدلالية الناتجة عن التحليل الدلالي للجملة الطبيعية وكذلك الوصول للجملة الطبيعية 
الناتجة عن التوليد الآلي لتلك الشبكة الدلالية حيث أنه يحتوي على نوعين رئيسيين من 
المعلومات. الأول: الكلمة في اللغة الطبيعية وما يقابلها في لغة الشبكات الدلالية 
الحاسوبية العالمية إذ أنبا وسيلة الربط بين كلمات اللغات الطبيعية والكلمات العالمية. 
والثاني: معلومات لغوية تصف السلوك اللغوي لكلمات اللغة الطبيعية. 

ويوضح الشكل Y)‏ 07( صورةً المدخل القاموسي الخاص بلغة الشبكات الدلالية 
الحاسوبية العالمية ومكوناته. فتحتوي خانة ال [NLW]‏ على الكلمة باللغة الطبيعية 
وخانة ال (UW‏ على مقابلها في لغة الشبكات الدلالية الحاسوبية العالمية وخانة ال 
(ATTR)‏ على مجموعة الخصائص اللغوية التي توضع مع كل كلمة لوصف سلوكها 
اللغوي. أما الخانة الأخيرة من القاموس فتحتوي على ثلاث أنواع من المعلومات: أولا 
pag (FLG)‏ عن لغة القاموس سواء كانت عربية أو إنجليزية أو غيرها من اللغات 
الطبيعية. (FRE) UU‏ وتعبر عن تكرار ظهور الكلمة داخل اللغة الطبيعية وتفيد في 
عملية التحليل. ثالثا PRD‏ وتعبر عن أولوية استخدام الكلمة في اللغة الطبيعية وتفيد 
في عملية التوليد. 


[NLW] {ID} “UW” (ATTR, ...) «FLG, FRE, PRI»; 


الشّكل :o-Y‏ الشكل العام لمدخل القاموس الخاص بلغة الشبكات الدلالية الحاسوبية العالمية. 

ويتيح القاموس إمكانية تخزين كل أنواع الكلمات سواء كانت بسيطة أو مركبة أو كلمة 
متعددة المفاهيم» فعلى سبيل المثال يتيح قاموس لغة الشبكات الدلالية الحاسوبية العالمية 
إمكانية تخزين الكلمات البسيطة في اللغة العربية مثل كلمة «كتاب» أو الكلمات المركبة مثل 
ib‏ في الاعتبار» وكذلك الكلمات متعددة المفاهيم مثل ١جمهورية‏ مصر العربية). فيوضع 
بجوار كل كلمة عربية ما يعبر عنها من كلمة عالمية في خانة الكلمة العالمية. 

i» JI قاوس لغة الشبكات الدلآلية الكاسويية الغالمية الخاضن باللخة‎ m 


يكون المصدر الرئيسي للمعلومات التي تتطلبها عمليتي تحليل وتوليد النصوص من وإلى 
العربية إذ أنه وسيلة الربط بين مفردات اللغة العربية ومفردات لغة الشبكات الدلالية 


A= 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


الحاسوبية العالمية والتي تمنع حدوث أي لبس أو غموض في معنى الكلمة العربية فكل 
مدخل في القاموس يعبر عن مفهوم واحد لكلمة عربية محددة» وقد تتكرر الكلمة العربية 
(من حيث المبنى) في أكثر من مدخل لکن معناها يكون مختلف فيتم e‏ كل معنى من 
تلك المعاني بكود رقمي مختلف. ويحتوي القاموس العربي على كل المعلومات اللغوية 
الخاصة بالكلمة العربية والتي تصف السلوك اللغوي للكلمة صرفيا ونحويا ودلاليا في 
السياقات المختلفة الأمر الذي يساعد على eU]‏ عمليتي التوليد والتحليل بنجاح. هذه 
الخصائص اللغوية نوعان؛ النوع الأول يصف قسم الكلمة إذا كانت اسم» فعل» صفة» 
ظرف» أداة» سابقة أو لاحقة وغيرها من أقسام الكلام» وتركيب الكلمة إذا كانت 
كلمة بسيطة أو مركبة أو مفهوم متعدد الكلمات. كا يحتوي على بعض من المعلومات 
التي تنقسم إلى: معلومات صرفية (مثل الأبواب التصريفية» التجرد» الزيادة» الصحة» 
الاعتلال» التذكير» التأنيث» الإفراد» التثنية» الجمع...إلخ). ومعلومات نحوية (مثل 
الصيغة» الزمان» اللزوم» التعديء التمام» النقصانء البناء للمعلوم البناء للمجهول.... 
إلخ). ومعلومات دلالية (مثل الإدراك» الامتلاك الحركة» الشكء التواصلء التنافس» 
المشاركة» العاقل» غير العاقل» الوقت» الحالةء العلاقة ...إلخ). على سبيل المثال عند 
إدراج الفعل «أعطى» داخل القاموس العربي تتم إضافة المعلومات اللغوية التالية له: 
فعل مزيد - متصرف - معتل الآخر ناقص- يتبع الباب التصريفي «أفعَل- ted‏ 
وهي معلومات صرفية» فعل ماضي -مبني للمعلوم - متعدي لمفعولين وهي معلومات 
نحوية» وأنه فعل حركي وهي معلومة دلالية» وأخيرًا أن احتهال ظهوره أعلى من أفعال 
fta cse‏ اتح ار deae da pma‏ 

أما النوع الثاني من المعلومات اللغوية فيصف سلوك الكلمة في السياقات والتراكيب 
المختلفة وينقسم إلى قسمين» القسم الأول مسئول عن اشتقاق الأشكال التصريفية 
المختلفة للكلمات العربية. فاللغة العربية كا نعرف غنية بالاشتقاقات والكلمة الواحدة 
ينتج عنها عدد كبير من التصريفات المختلفة وفقا للسياق الواردة فيه لذلك كان لا 
بد من وضع معلومة تختص باشتقاق الكلمات تسمى القوالب الصرفية حيث يمكن 
هذه القوالب أن تتعامل مع كافة الكلمات العربية UT‏ كانت فتتها المعجمية (الأسماء 
الأفعال» الصفات» الظروف) وذلك بمراعاة العوامل والمعايير المختلفة التي تؤثر على 
كل فئة منها. فمثلا الفعل «أعطى» فعل مزيد ومتعدي وناقص يتبع الميزان الصرفي 


—Y4Q- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


t ja -faih‏ وبتطبيق القالب الصرفي الخاص بهذه النوعية من الأفعال يتم توليد 
الأشكال الصرفية المختلفة للفعل «أعطى» وهي: (يعطي - يعطى - أعطيا - يعطيان - 
يعطيا - ò sha‏ - يعطوا - تعطين - أعطى - يعطين - أعطينا - نعطى). ونفس ال حال 
بالنسبة لأسماء اللغة العربية حيث تتمكن القوالب الصرفية الخاصة بها من اشتقاق 
الأشكال المختلفة للجموع المنتظمة وغير المنتظمة وتلك التي تعبر عن المثنى فعلى سبيل 
المثال الاسم «بريء» تتمكن القوالب الصرفية من اشتقاق الأشكال الصرفية المختلفة 
له وهي: «بريئة - أبرياء - بريئان - بريئين - بريئات - بريئتان - بريئتين». وغيرها من 
الكلمات والأشكال المختلفة. UT‏ القسم الثاني لهذا النوع من المعلومات فهو مسئول 
عن وصف السلوك النحوي للكلمة وتحديد عدد ونوع المتعلقات النحوية اللازمة 
لتلك الكلمة .(Subcategorization Frame)‏ ويطلق عليه القالب النحوي الذي 
يحدد مواصفات السياق الذي يستخدم فيه الفعل. فعلى سبيل المثال الفعل «أعطى» 
توضع بجواره معلومات تدل على عدد ونوع المتعلقات النحوية الخاصة به وهي عبارة 
عن ثلاث متعلقات نحوية: (مخصص الفعل (Verb Specifier (VS)‏ و 
«التمم الأول للفعل | (Verb Complement (VC)‏ و (المتمم الثاني للفعل Verb)‏ 
(Complement (VC‏ والتي تظهر واضحة من خلال جملة «الإسلام أعطى للمرأة 
حقوقها كاملة» فمخصص الفعل (VS)‏ وهو عبارة عن المركب الاسمي (الإسلام) 
والمتمم الأول للفعل (VC)‏ وهو عبارة عن المركب الاسمي (حقوقها) والمتمم الثاني 
للفعل (VC)‏ وهو عبارة عن شبه جملة تبدأ بحرف الجر «ل» متبوع بالمركب الاسمي 
KORD‏ ويوضح الشكل OY)‏ مثالا لشكل مداخل القاموس العربي للفعل «أعطى). 


(V,CMV,VER,WRD,TST2,Y 18, M222)<ar,0,2>;‏ «200878876« }{ [أعطى] 


الشّكل zv Y‏ أحد مداخل القاموس العربي للغة الشبكات الدلالية الحاسوبية العالمية. 


ويوضح الشكل (5-7) صورة الفعل «أعطي» داخل القاموس العربي والمعلومات 
اللغوية المخونة يجانيه مكل OMV‏ وي تعب عن edat‏ الدلال eub‏ وهر ger‏ 
تواصل e (communication verb)‏ الفعل WRD‏ وهو فعل chau‏ و TST2‏ 
وتعنى أن الفعل «أعطى» له فاعل وكذلك متعدٍ لمفعولين» و Y18‏ وهى المعلومة 
الخاصة بالسلوك التحوي للفعل داخل اللغة العربية والتي تحدد أن الفعل «أعطى» له 


-Yy- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


ثلاثة متعلقات دلالية» MYYY‏ وتعبر عن السلوك الاشتقاقي للفعل «أعطى» وتسمح 
باشتقاق جميع الأشكال المطلوبة لهذا الفعل. 

-Y , £‏ التحليل الآلي باستخدام لغة الشبكات الدلالية الحاسوبية العالمية 

إن عملية التحليل الآلي باستخدام لغة الشبكات الدلالية الحاسوبية العالمية جعلت 
التعامل مع الجملة الطبيعية أكثر سهولة ويسرًا إذ أا تقوم بتمثيل كل ما يمكن أن 
تحتويه الجملة الطبيعية من معلومات صرفية ونحوية ودلالية وبرجماتية في شكل شبكة 
دلالية توضح المعنى الدقيق لكل كلمة في الجملة الواردة وماهية العلاقات الدلالية التي 
تربط كلمات الجملة بعضها بعضا عن طريق استخدام مفردات لغة الشبكات الدلالية 
(Universal Words)‏ وربطها بعلاقات دلالية (Semantic Relations)‏ ثم تستعين 
بالسمات (Attributes)‏ لإضافة المعلومات التي لم يتم التعبير عنها سواء بالمفردات أو 
العلاقات الدلالية. وتتم عملية التحليل الآلي عن طريق المحلل التفاعلي Interactive)‏ 
IAN‏ -80219:265)"" والتي تستخدم موارد لغة الشبكات الدلالية الحاسوبية العالمية 
متمثلة في القاموس الذي أشرنا إليه في الجزء الخاص بقاموس لغة الشبكات الدلالية 
الحاسوبية العالمية وقواعد التحليل الخاصة بلغة الشبكات الدلالية الحاسوبية العالمية 
والتي تشتمل على ستة مراحل تبداً بالمرحلة الأولى وهي تحليل الجملة الطبيعية للتعرف 
على معاني المفردات من خلال القاموس تليها المرحلة الثانية وهى التحليل الصرفي 
لكلمات الجملة الطبيعية وتحديد السات الخاصة بكل كلمة. ثم المرحلة الثالثة وهي بناء 
العلاقات النحوية بين كلمات الجملة الطبيعية في شكل شجرة نحوية في إطار علم اللغة 
الحديث. ثم المرحلة الرابعة وهي الانتقال من البنية السطحية للشجرة النحوية إلى البنية 
العميقة. ثم المرحلة الخامسة وهي تحويل الشجرة النحوية إلى شبكة دلالية. وأخيرًا 
المرحلة السادسة وهي تنقيح الشبكة الدلالية بعد معالحتها آليا. 


-١‏ يُمكن استخدام أداة التحليل الآلي للغة الشبكات الدلالية الحاسوبية عن طريق هذا الرابط: 
http://dev.undlfoundation.org/analysis/index.jsp‏ 


eyes 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————Xc — D.‏ 


" التحليل الآلي للجملة العربية باستخدام لغة الشبكات الدلالية الحاسوبية العالمية 
نتعرض في هذا الجزء بالتوضيح لمراحل التحليل الآلي الست للغة الشبكات الدلالية 


الحاسوبية العالمية من خلال تطبيقها على الجملة العربية رقم CO)‏ وحتى نصل إلى الشبكة 
الدلالية وهى المدف من هذه العملية. 


* التعرف على معاني المفردات من خلال القاموس 

يبدا التحليل الآلي بمرحلة التعرف على المفردات العربية واستبداها بالمفاهيم العالمية 
حيث تمر الجملة على قاموس لغة الشبكات الدلالية لإيجاد المعنى المقابل لكل كلمة في 
الجملة كا يظهر في الشكل (۷-۳). 


[108168978 "{}[Jgد"‎ (N, PLR) <ara,125,1>; 
[202379528 "{} ''بدأت]‎ (V, ICP,FEM,SNG,3PS,PAS) <ara,46,2>; 
[202664017 "{} [Je "تعتمد‎ (V, MCL,SNG,NOM,2PS,PRS) <ara,46,2>; 
[110069645 "{} '"إدارين]‎ (N, PLR) <ara,3,1>; 
[301911683 "£ "متدرب]‎ (J, ADJ) <ara,0,0>; 
ناتج مرحلة التعرف على معاني المفردات.‎ : VY الشكل‎ 

وبالتالي تتحول المفردة العربية إلى مفهوم من مفاهيم لغة الشبكات الدلالية الحاسوبية 
العالمية كا في الشكل (A-Y)‏ والذي نلاحظ منه أن بعض مفردات الجملة لم تستبدل 
مثل كلمة «جميع» وأدوات التعريف «ال» وذلك لأنها ليست مُدرجة بالقاموس الخاص 

باللغة العربية والتعامل معها يتم بمراحل لاحقة وليس بتلك المرحلة. 


جميع VV Y* YYVAOYA Y "AYAARVAUI‏ لال 


الشكل 8-7: شكل الجملة العربية بعد مرورها بمرحلة التعرف على المفردات العربية. 
9 التحليل الصرني ووسم الكلمات 
تبدأ القواعد اللغوية في هذه المرحلة بالتحليل الصرفي للسوابق واللواحق المتصلة 
ببعض الكلمات والتي قد يتم حذف بعضها واستبدالها بالسمات التي تعبر عن معناها. 
وبالنسبة للجملة Co)‏ يتم التحليل الصرفي كا يلي: جميع الكلمات التي تحمل الصفة 


-\\ es 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


(PLR‏ الدالة على el‏ والمستمدة من القاموس يتم وسمها بالخاصية (@pl)‏ المعبرة 
عن الجمع. والكلمات التي يتصل بها السابق (JP‏ يتم وسمها بالخاصية (@def)‏ الدالة 
على التعريف. أما الأفعال التي تحمل صفة المضارعة PRS)‏ يتم وسمها بالخاصية 
(165621م60). ويوجد في تلك المرحلة نوع آخر من الكلمات يتم استبد الما بسمات لغوية 
مثل الفعل «بدأت» والذي لديه في القاموس الصفة الدلالية ACP»‏ الدالة على بدء 
حدث آخر في الجملة» فيحذف هذا الفعل وتحل محله الخاصية (@inceptive)‏ والتى 
توضع على الفعل الذي يليه وهو (تعتمد). وكذلك كلمة «جميع» الدالة على الكلية 
تستبدل بالسمة (Gall)‏ وتوضع على الكلمة التي تليها وهي «دول» فيكون الشكل 
الناتج عن تلك المرحلة كا في الشكل (4-7): 


108168978.@p1.@all.@def 202664017 @inceptiv. @present. 
110069645@p1.@def.301911683 


الشّكل 4-۳: ناتج مرحلة التحليل الصرني ووسم الكلمات. 
* بناء العلاقات النحوية بين الكلمات (البنية السطحية للحملة) 
في هذه المرحلة يتم تحويل الجملة العربية المحللة صرفيا إلى شجرة نحوية تُعبر عن البنية 
السطحية للجملة طبقا لنظرية OC- Bar)‏ والتى تعرض ها الباب الخامس من هذا الكتاب 
a d pl‏ الهاي فا للا ال رت )0( le JUI c ai las e pi‏ 
- الاسم «إداريين» ذو الخاصية (N)‏ يتم ربطه بالصفة «متدربين» ذات الخاصية 
(3) ومن ثم يتم بناء المركب الاسمي الوسيط o  (N-Bar (NB))‏ «إداريين» 
موسومة بالسمة 068 ©) - آي أن آداة التعريف التي تعوض عنها تلك السمة 
عن بمثابة حصص اسمي (Noun Specifier (NS)‏ للاسم «إداريين» - يتم 
تحويل المركب الاسمى الوسيط (NB)‏ إلى المركب الاسمى النهائى Noun))‏ 
(Phrase (NP‏ کا هو واضح في الشكل (۱۰-۳). ۰ 
- يتم ربط المركب الاسمي النهائي «إداريين متدربيين» (NP)‏ الذي تم بناؤه مع 
الفعل «تعتمد على» -حيث أن «إداريين متدربين» بمثابة المفعول به بالنسبة 
للفعل «تعتمد Le‏ € والمتممة له (Verb Complement (VC))‏ - لینشا المركب 
الفعلي الوسيط (V-Bar (VB))‏ كما هو واضح في الشكل QUY)‏ 


eye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


الشكل :٠١-۳‏ مركب اسمي ue‏ الشكل ENNY‏ مركب فعلي وسيط. 

- بعد ذلك يتم تحويل الاسم «دول» (N)‏ والذي هو مركب اسمي وسيط (NB)‏ 
موسوم بالسمة 2068 ©) - أي أن أداة التعريف التي تعوض عنها تلك السمة 
تعد بمثابة خصص اسمي (NS)‏ للاسم «دول» - إلى مركب اسمي نهائي 
(NP)‏ كما هو واضح في الشكل QUY)‏ 

dal, -‏ يتم ربط المركب الاسمي النهائي «دول (NP) »@ ۵٥۴‏ الذي تم بناؤه 
من قبل - والذي يمثل الفاعل بالنسبة للفعل (تعتمد على) والمخصص dill‏ 
له (verb Specifier- VS)‏ - مع المركب الفعلي الوسيط «تعتمد على Sol‏ 
متدریین» (VB)‏ وذلك لبناء التركيب الفعلى النهائى (Verb-Phrase — VP)‏ 
کا هو واضح في الشكل ٠ OD‏ 


D> CRD 
AD 
«T» 


GID CND 

CNP 2 

E2 
CvP2 


الشّكل Y-Y‏ مركب اسمي le‏ الشّكل V-T‏ : مركب فعلي نهائي. 


efe 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


" الانتقال من البنية السطحية للشجرة النحوية إلى البنية العميقة 
في هذه المرحلة يتم فك الشجرة النحوية التي تم تكوينها في المرحلة السابقة لفروع 
ثنائية نحوية أكثر تعقيدا على النحو التالي: 
Es‏ فك التركيب الفعلي النهائي CVP)‏ إلى مركب فعلي وسيط (VB)‏ وبناء علاقة 
مخحصص فعلي (VS)‏ بين الفعل «يعتمد على» والاسم «دول» S‏ هو واضح d‏ 
الشكل i-Y)‏ (. 


الشّكل ١5-7‏ : بناء الخصص الفعلى VS)‏ 


- يتم تحويل المركب الفعلي الوسيط (VB)‏ إلى العلاقة النحوية متمم فعلي (VC)‏ 
بين الفعل «يعتمد على) والاسم (إداريين» کا هو واضح في الشكل (Qu o-Y)‏ 


eJ‏ مويه 


Ca D wD Cw» 
CNP D 


الشّكل :٠١-۳١‏ بناء المتمم الفعلي VO)‏ 


-١١6ه‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n————U‏ 


- وآأخيرًا يتم تحويل المركب الاسمي النهائي (NP)‏ بين الاسم «إداريين» والصفة 
«متدربين) إلى العلاقة النحوية ملحق اسمى (S Noun Adjunct (NA))‏ هو 


الشّكل 15-1 : بناء الملحق الاسمي NA)‏ 


* المرحلة الخامسة: تحويل الشجرة النحوية إلى شبكة دلالية للجملة العربية 

في هذه المرحلة يتم تحويل الشجرة النحوية إلى شبكة دلالية معبرة عن محتوى الجملة 
العربية» حيث يتم تحويل (الملحق الاسمي (NA.‏ إلى علاقة (الوصفية الدلالية (aoj‏ 
وتحويل (المتمم الفعلي CVC‏ إلى علاقة (المفعولية الدلالية Cobj‏ وأخيرًا تحويل (المخصص 
الفعلي CVS‏ إلى علاقة (الفاعلية الدلالية CS (agt‏ موضح في الشكل OV-T)‏ 


الشكل 17-1 : تحويل العلاقات النحوية إلى علاقات دلالية. 


eM ye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


* تعديل الشبكة الدلالية 

هي مرحلة يتم فيها تعديل الشبكة الدلالية الناتجة عن المراحل السابقة من حيث 
دمج علاقة أو تقسيمها أو إضافة أخرى... إلخ لكنها مرحلة اختيارية لسنا بحاجة 
إليها في هذه الجملة. لكن ربا تكون ذات أهمية في حالات أخرى. بالتالي وبعد المرور 
بالمراحل السابقة جميعها تصبح الجملة العربية تمثلة UN»‏ كما في الشكل OAY)‏ 


{org} 

بدآت جميع الدول تعتمد على الإداريين المتدربين 

{org} 

{unl} 

agt(202664017:14.@entry.@inceptive.@present, 108168978:45.@all.@def) 
obj(202664017:14.@entry.@inceptive.@present, 110069645:93.@p1.@def) 
aoj(301911683:99,110069645:93.@p1.@def) 

t/unl) 

[/5] 


الشّكل VA- Y‏ : ناتج أداة التحليل JYI‏ لجملة عربية. 
وهذا التمثيل الدلالي يمكن التعبير عنه في شكل شبكة دلالية سهلة القراءة كما في 
الشكل (۱۹-۳): 


(Qentry@inceptive, @present‏ تعتمد على 


الشّكل ١9-7‏ : شبكة دلالية لجملة عربية. 


eye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
05 ييا 


£ و - التوليد الآلي باستخدام لغة الشبكات الدلالية الحاسوبية العالمية 


تحدثنا في الجزء السابق عن التحليل الآلي للجملة الطبيعية وانتهينا بتمثيل ila‏ عربية 
في شكل شبكة دلالية ترتبط مفرداتها بعلاقات دلالية. وسنقوم في هذا الجزء بتوضيح 
كيفية توليد الشبكة الدلالية في شكل جملة طبيعية واضحة المعنى ومتكاملة الأركان 
وفقا لقواعد كل لغة. ولكن لا بد في البداية من توضيح مفهوم التوليد الآلي للجملة 
الطبيعية. 


- me 


" التوليد الآلي للجملة الطبيعية 


هو القدرة على بناء مجموعة غير متناهية من الجمل الصحيحة بلغة طبيعية من تمثيل 
dise di‏ الكل i adi‏ تانق ale‏ 


جانب المعنى: حيث يجب أن تتسم الجملة المولّدة GT‏ بوضوح المعنى وسهولة 
الفهم والخلّو من اللبس» والتعبير بشكل سليم عن المعنى المراد دون انحراف 
أو إخلال به do‏ من الاختيار السليم لمفردات الجملة وانتهاءً بتجنب التراكيب 
الني قد تتسيب في اللبس الدلالي وهنا oa‏ التداخل بين التركيب والمعنى. 
جانب التركيب النحوي: والذي esee‏ باختيار التركيب المناسب للجملة المولدة 
هل هو تركيب فعلي آم اسمي آم غير ذلك؟ إن كان فعلي فيجب حينئلٍ تحديد 
القالب الذي ستصاغ فيه الجملة المولّدة آلا إن كان في شكل (فعل-فاعل- 
مفعول) el‏ (فاعل-فعل-مفعول) وهكذا. وإن كان اسمي فيجب تحديد كيف 
يكون الترتيب بين الكلمات وبعضها داخل الجملة من تقديم لكلمة على أخرى 
أو تأخير كلمات بعينها وغير ذلك من العمليات النحوية من حذف وإضمار 
وغيرها. 

جانب الصرف: وهذا الجانب يعنى بكل كلمة داخل الجملة من الناحية 
المورفولوجية وتوليدها با يتناسب مع سياق الجملة والكلمات المجاورة ها 
فيهتم بحالات المطابقة بين الفعل والفاعل والصفة والموصوف» وتصريف 
الأفعال والأساء» والعلامات الإعرابية للكلات طبقا لموقعها داخل 
الجملة» وهنا يبرز التداخل بين التركيب والصرف. وغير ذلك من العمليات 


-١١8- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


المورفولوجية المختلفة. لذلك يعد التوليد UNT‏ أحد المجالات المتقدمة في 
المعالجة الآلية للنصوص لا يشتمل عليه من عمليات مُعقدة تجمع بين التركيب 
النحوي والصياغة الدلالية للجملة والشكل المورفولوجي للكلمات. 
وفي إطار لغة الشبكات الدلالية الحاسوبية العالمية تستخدم أداة التوليد JII‏ 
والتي يُطلق عليها (EUGENE')‏ لتوليد النصوص الطبيعية آليا من أية شبكة 
الآلية باخام مرارة الل الاد قزل ايها من قران رق اعد اة رال تیل 
على ستة مراحل تبدأ بالمرحلة الأولى وهى تحديد الكلمة المناسبة لسياق الجملة تليها 
المرحلة الثانية وهي تعديل الشبكة الدلالية الناتجة عن عملية التحليل بها يتناسب مع 
اللغة الهدف ثم المرحلة الثالثة والتي يتم فيها استبدال العلاقات الدلالية بين الكلمات 
بعلاقات نحوية تعبر عن الدور النحوي لكل كلمة داخل الجملة لتمثيل البنية العميقة 
للجملة. ثم المرحلة الرابعة والتي يتم فيها استخلاص الشجرة النحوية السطحية من 
البنية العميقة للجملة تليها المرحلة الخامسة حيث يخضع هذا الشكل الشجري للعديد 
من عمليات التحويل والتغيير ليصبح في شكل قائمة أفقية من الكلمات. وأخيرًا المرحلة 
السادسة التي تعنى بتنقيح القائمة الأفقية لتوليد الكلمات في الشكل المورفولوجي 
المناسب للسياق طبقا لقواعد كل لغة طبيعية لتتولد في النهاية الجملة الطبيعية التي 
كانت ممثلة في شكل شبكة دلالية. l‏ 


" التوليد الآلي للجملة العربية باستخدام لغة الشبكات الدلالية الحاسوبية العالمية 


فبها يلي عرض تفصيلي لمراحل التوليد الآلي لجملة عربية من الشبكة الدلالية 
الموجودة في الشكل )7١-7(‏ والتي تتكون من ثلاث علاقات دلالية تربط بين الفعل 


Y‏ -هذا الرمز اختصار ل (dEep-to-sUrface GENErator)‏ ويمكن استخدام أداة التوليد JYI‏ عن طريق هذا الرابط: 
.http://dev.undlfoundation.org/generation/index.]sp‏ 


- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


{unl} 
agt(201168468:0M.@present.@entry,110285313:00.@def) 
obj(201168468:0M.@present.@entry, 107739125:02.@def) 
man(201168468:0M.@present.@entry,400105603:06) 
U/unlj 


الشّكل :7١-7‏ شبكة دلالية. 


* تحديد الكلمة المناسبة لسياق الجملة: تحويل المفاهيم إلى كلمات 

أولى مراحل التوليد الآلي هي مرحلة تحويل المفاهيم الموجودة داخل الشبكة الدلالية 
إلى كلمات عربية تناسب سياق ومعنى الجملة لتصبح الشبكة الدلالية بعد الانتهاء من 
تلك المرحلة كا نراها في الشكل QUY)‏ 


agt("0:" JSÎM.@entry.@present, "00:".J ,.@def) 
obj("0:"JSÎM.@entry.@present, "02:"i-U:.(a)def) 
man("0:" JSÎM.@entry.@present, "06:"2e w) 


الشكل c VY‏ الشبكة الدلالية بعد تحويل المفاهيم العالمية إلى كلمات عربية. 

* تعديل الشبكة الدلالية p‏ يتناسب مع متطلبات توليد الجملة العربية 
تتيح قواعد التوليد الآلي لنظام لغة الشبكات الدلالية إمكانية تعديل الشبكة 
الدلالية الناتجة عن التحليل الدلالي بما يتناسب مع متطلبات كل لغة طبيعية ES‏ 
مرحلة اختيارية قد نحتاج إليها وقد لا نحتاج إليها تبعًا لطبيعة الشبكة الدلالية الناتجة. 
وعدم المرور بتلك المرحلة لا يعد إخلالا بخطوات توليد الجملة. والشبكة الدلالية 
التي معنا ليست بحاجة إلى تعديل لذلك سيتم الاستغناء عن تلك المرحلة في هذا المثال. 


٠‏ تحويل العلاقات الدلالية إلى علاقات نحوية 

باستخدام قراعد لك الرحلة بم ريل الك الدلالية إل طيكة Red‏ 
باستبدال العلاقات الدلالية بين الكلات بعلاقات نحوية. وبالنسية للشبكة الدلالية 
الموجودة في الشكل (Y VY)‏ تتحول علاقة الفاعل الدلالي (agt)‏ إلى العلاقة النحوية 
مخصص J 2-2 (Verb Specifier (VS)) pi‏ علاقة المفعول Cobj) JYI‏ إلى 
العلاقة ge‏ متمم فعلي «(Verb Complement (VC))‏ وأخيرًا تتحول علاقة 


کو 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


él (Verb Adjunct (VA)) | à إلى العلاقة النحوية ملحق‎ (man) الدلالي‎ JU-I 
QY-Y) حال الفعل. کا يظهر في الشكل‎ 


VS("0:" |SÍM.(entry. (present, "00:".J ;.(a)def) 
VC("0:" |SÍM.(entry. (present, "02:"i-Us.(a)def) 
VA("0:" JSÎM.@entry.@present, (بسرعة":06"‎ 


الشّكل *-77: الشبكة النحوية الناتجة عن المرحلة الثانية للتوليد. 


* بناء الشجرة النحوية: من البنية العميقة إلى البنية السطحية للجملة 

بعد تحويل العلاقات الدلالية (الشبكة الدلالية) إلى علاقات نحوية (الشبكة 
النحوية) يتم تمثيل تلك العلاقات النحوية في شكل شجري اعتمادا على X-Bar à E‏ 
النحوية ولكى نصل إلى هذا الشكل الشجري لا بد من المرور بمراحل عدة في الانتقال 
lad‏ من Xil‏ العميقة إلى All‏ الشطحية فالعادقات RS eI E ap‏ 
النحوية الناتجة عن المرحلة السابقة عبارة عن علاقات ثنائية بين الكلمات ولكي نصل 
إلى الشكل الشجري لا بد من ربط تلك الأفرع الثنائية لتتكون الشجرة النحوية تدريييا. 
ومن خلال الشبكة النحوية الناتجة عن المرحلة السابقة والموجودة في الشكل (7-١؟)‏ 
يتضح أن لدينا شبكة نحوية تتكون من خصص فعلي (VS)‏ ومتمم فعلي (VC)‏ وملحق 
فعلي (VA)‏ فنبداً عن طريق العلاقة النحوية (VS)‏ ببناء فرع المخصص الفعلي الذي 
هو عبارة عن الاسم «ولد» الموسوم بالسمة @def‏ - أي أنه مُعرف بالآلف واللام - 
وبالتالي يكون فرع المخصص الفعلي عبارة عن مركب اسمي نهائي (NP)‏ كا في الشكل 
(Yr Y)‏ ثم عن طريق العلاقة النحوية (VC)‏ نبني فرع المركب الفعلي الوسيط (VB)‏ 
هذا الفرع يجمع بين الفعل IST?‏ € ومتممه «التفاحة» - الذي هو أيضًا عبارة عن الاسم 
«تفاحة» موسومة بالسمة (061©) أي أن المتمم «تفاحة» عبارة عن مركب اسمي نهائي 
(NP)‏ - ليصبح فرع المركب الفعلي الوسيط كما نراه في الشكل (Y E=)‏ وأخيرًا بناء 
فرع الملحق الفعلي (A-Bar (AB))‏ الذي هو عبارة عن ا حال 0«بسرعة» كما في الشكل 
.(Yo-Y)‏ 


-\Y\- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————— $5‏ 


CED 
(8) ICD Y CO 
IDET) U 
- TED © 


الشكل YY-Y‏ المخصص pill‏ الشّكل “-14:المركب الفعلي الوسيط. الشكل “-5:: الملحق الفعلي. 

لازلنا في مرحلة بناء الشبكة النحوية؛ بعد بناء الأفرع بشكل منفرد تبدأ مرحلة 
جمع تلك الأفرع المنفردة لتكتمل الشجرة النحوية. فنجمع فرع المركب الفعلي الوسيط 
(VB)‏ مع فرع الملحق الفعلي (AB)‏ وننتقل بهم لمستوى أعلى في الشجرة النحوية وهو 
مستوى المركب الفعلي الوسيط الثاني (VB)‏ كما يظهر في الشكل (37-1). ثم نجمع 
فرع المركب الفعلي الوسيط الثاني (VB)‏ الناتج عن الخطوة السابقة مع فرع المخصص 
الفعلى (NP).‏ الموجود في الشكل (YYY)‏ لنصل إلى رأس الشجرة النحوية التركيب 
الفعلى النھائی (VP)‏ کا تظهر لنا في الشكل (۲۷-۳) وبذلك تكون قد اكتملت 
ET‏ انمو هلها ا 


الشّكل *-5:: فرع المركب الفعلي الوسيط الثاني. 2 الشّكل YV-‏ الشجرة النحوية مكتملة. 


E Al. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EN‏ ااا 


* فك الشجرة النحوية إلى تمثيل أفقي 

ENTM‏ به الجر الجر Aen‏ من وضع أسس البنية السطحية للجملة 
العربية تبدأ مرحلة فك الشجرة النحوية والانتقال بالجملة من التمثيل الشجري إلى 
التمثيل الأفقي ووضع الكلمات العربية بجانب بعضها البعض مع مراعاة المسافات kè‏ 
بينها حتى لا تخرج متلاصقة. وني تلك المرحلة يجب Ule‏ أن نأخذ في الاعتبار الترتيب 
بين كلمات الفرع الواحد بعد أن قمنا بالترتيب بين الأفرع في المرحلة السابقة. فالصفة 
تتبع الموصوف وأداة التعريف تسبق المعرف. وبعض الكلمات لا تحتاج إلى مسافة بينها 
وبين الكلمة التي تليها كأداة التعريف COD‏ وغيرها. يوضح الشكل (۲۸-۳) التمثيل 
الأفقي للشجرة النحوية الناتجة عن المرحلة السابقة وهو عبارة عن جملة إسمية fas‏ 
Jaak‏ «الولد» . 


الولد أكل التفاحة بسرعة 
الشّكل YA- Y‏ التمثيل الأفقي للشجرة النحوية. 


* معالجة الكلمة مورفولوجيًا وتوليد الجملة في شكلها النهائي 

من أبرز الخصائص التي تطوع اللغة العربية للمعالجة الآلية طبيعتها الصرفية 
الاشتقاقية ذات الإنتاجية العالية والمستمدة أساسا من المكونين الرياضيين الجذر 
والوزن» ومن شأن هذا أن يدحض بعض الدعوات التي ترى أن اللغة العربية لغة 
معقدة وصعبة على مستوى المعالجة الآلية فرغم أنها تتسم بالاشتقاق الصرفي الغزير إلا 
أنه اشتقاق شبه منتظم. وهذا الانتظام يجعل المستوى الصرفي أكثر المستويات اللسانية 
قابلية للحوسبة Gya‏ عن المستويات الأخرى الدلالية والتركيبية خاصة في مرحلة 
التوليد الآلي للغة العربية. وفي المثال الذي لدينا الفعل «أكل» لديه السمة present@‏ 
والتي تدل على أن هذا الفعل حدث في زمن المضارع» ومع الأخذ في الاعتبار لطبيعة 
الفاعل المفرد المذكر تقوم قواعد الاشتقاق الخاصة بتلك المرحلة بتوليد شكل المضارعة 
للفعل «أكل» وهو «يأكل» ليصبح الشكل النهائي للجملة المولدة OT‏ ىا في الشكل 
(۲۹-۳). كذلك ex‏ تلك المرحلة بوضع اللمسات الأخيرة في توليد الجملة العربية 
والعناية بالشكل النهائي ها من خلال إضافة لعلامات استفهام أو أدوات تعجب أو 
تعديل كلمة ما بشكل معين لم نتمكن من تعديله خلال المراحل السابقة. 


-\ YY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


الولد يأكل التفاحة بسرعة 


الشّكل ۲۹-۳: الجملة العربية في شكلها النهائي. 


ه- تطبيقات المعالجحة الآلية للدلالة باستخدام لغة الشبكات الدلالية 
الحاسوبية العالمية 

بعد أن استعرضنا كيف تقوم لغة الشبكات الدلالية الحاسوبية العالمية باستخلاص 
المعنى الدقيق للمحتوى الوارد في النصوص المكتوبة بأية لغة طبيعية وتمثيله في شكل 
حيادي مجرد» وكيف يستطيع النظام نفسه وضع هذا التمثيل الحيادي في إطار أية لغة 
طبيعية مرة أخرىء ينبغى علينا أن نتساءل كيف يمكن الاستفادة من مثل هذه التقنية. 
ولحل aede dal‏ ادر إن ا وا و el Jus ge d] EU cp AI‏ آذ 
الترجمة الآلية تعد من أبرز استخدامات لغة الشبكات الدلالية الحاسوبية العالمية إلا أا 
ليست التطبيق الأوحد بل بإمكان لغة الشبكات الدلالية الحاسوبية العالمية أن تنطلق 
لأبعد من هذا بكثير لأنها تقوم بفهم المعنى الذي تحمله الجمل والكلمات قبل تحويلها 
ونقله إلى لغة وسيطة نستطيع أن ننطلق منها إلى تطبيقات أخرى عديدة مثل البحث 
الآليء والتلخيص الآلي» والتنقيح الآلي. وفيا يلي عرض لبعض من التطبيقات التي 
قامت على نظام لغة الشبكات الدلالية الحاسوبية العالمية. 


-١ ,5‏ الترحمة الآلية للنصوص 

نظرًا لما تحتله تطبيقات الترجمة الآلية للنصوص من أهمية في المعالحة الآلية للغات 
الطبيعية» ونظرا للجهد المبذول من اللغويين في المحاولة للوصول إلى تطبيق d‏ يتمتع 
بإمكانية فهم النص واستيعابه ومن ثم التعبير عن معناه المقصود في الشكل النحوي 
الذي تسمح به اللغة الهدف. فإن الترجمة الآلية تعد من أبرز التطبيقات التي يُمكن للغة 
الشبكات الدلالية الحاسوبية العا مية أن تساهم في تطويرها نظرًا لما تتمتع به من أدوات 
لغوية تمكنها من تحليل النص ونقل معناه المراد إلى لغة وسيطة وإعادة توليده ثانية في 
الشكل الذي يتهاشى مع اللغة الهدف دون المساس بالمحتوى الدلالي للنص الأصلي. 
وللمركز العربي للغة الشبكات الدلالية الحاسوبية العالمية عدة محاولات في استخدام 


-\ Yé- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


لغة الشبكات الدلالية كمترجم آلي من أية لغة طبيعية إلى اللغة العربية نذكر منها على 
" موسوعة دعم نظم الحياة EOLSS)‏ هي موسوعة متعددة التخصصات وتعد 
أضخم موسوعة إلكترونية مكتوبة باللغة الإنجليزية حيث تتكون من ١77٠٠١‏ 
صفحة إنترنت أي ما يعادل حوالي ٠٠٠٠٠١‏ صفحة مطبوعة. وقد قام المركز 
العربي للغة الشبكات الدلالية بمكتبة الإسكندرية بالاشتراك في المشروع الذي 
طُرح من قبل منظمة اليونسكو بهدف ترجمة هذه الموسوعة إلى اللغات الست 
الرسمية للأمم المتحدة» وكان المركز العربي مسئولا عن إنتاج النسخة العربية"". 
وتضمنت المرحلة الأول من المشروع ترجمة Yo‏ نصا (حوالي ١1٠٠٠١‏ جملة) 
من الموسوعة cya ES‏ قبل مؤسسة لغة الشبكات الدلالية الحاسوبية العالية 
(UNDL Foundation)‏ وما للترجمة إلى اللغات المطلوبة. وقد تمكنت قواعد 
تقييم الترجمات المولدة مقارنة ببعض أنظمة الترجمة الآلية الأخرى وكانت جودة 
النسخة العربية المولدة من لغة الشبكات الدلالية مرضية» وبالفعل تم إنشاء موقع 
على الإنترنت" يضم النصوص التفق على ترجمتها وتتصل فيه اللغات المشتركة 
في المشروع ببعضهاء ويتم من خلال الموقع ترجمة النصوص على الإنترنت مباشرة. 
وبعد نشر نتائج هذا المشروع تلقى المركز العربي للغة الشبكات الدلالية دعوة من 
القائمين على بناء وتطوير موسوعة الحياة (BOL)‏ لإصدار النسخة العربية من 
الملوسوعة وهي موسوعة إلكترونية متاحة جانا على الإنترنت باللغة الإنجليزية 
وتضم معلومات عن ٠,۸‏ مليون كائن حي. وتبدف ترجمة الموسوعة إلى نشر 
المعرفة عن هذه الكائنات للمحافظة عليهاء وقد تم اختبار مدى قدرة قواعد 
التوليد العربية على التعامل مع نصوص هذه الموسوعة» وكانت النتائج جيدة 
مقارنة ببعض أنظمة الترجمة الآلية الأخرى. 


.http://www.eolss.net/Eolss-Definition-Context.aspx نتائج هذا المشروع موجودة في‎ -١ 
-http://www.undl.org/unleolss/unleolss.htm ؟-هذا الموقع هو‎ 
-http://eol.org لمعرفة المزيد عن موسوعة الحياة:‎ -۳ 
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كما قامت العديد من المراكز الأخرى الممثلة للغات المشاركة في مشروع لغة الشبكات 
الدلالية الحاسوبية العالمية ببناء أنظمة ترجمة آلية معتمدة على لغة الشبكات العالمية ىا في 
المركز ا هندي للغة الشبكات الدلالية» والمركز الروسى للغة الشبكات الدلاليةء والمركز 
الفرنسي» وغيرهم. 

ه, LIE Y‏ الآلى عبر حاجز اللغة 

استخدام آخر لا يقل أهمية عن توليد النصوص هو استخدام الشبكة الدلالية من 
أجل البحث داخل محتوى الإنترنت واسترجاع ما يحتاجه المستخدم من معلومات. 

فعن طريق فهمه لما يبحث عنه المستخدم يستطيع البرنامج المبني على تكنولوجيا لغة 
الشبكات الدلالية الحاسوبية العالمية البحث عن المعلومات المطلوبة داخل صفحات 
الإنترنت المكتوبة بأي لغة وليست لغة البحث فقط بينا يقوم بإظهار نتائج البحث 
بلغة المستخدم للإنترنت أيا كانت اللغة الأصلية المخزنة مها تلك النتائج في صفحات 
الإنترنت. 

أي أن برنامج لغة الشبكات الدلالية سيعتمد على مقارنة المعنى الدلالي. وكذلك 
يعتبر استرجاع المعلومات عبر اللغة cross-language information retriev-)‏ 
وال حصول على أي معلومة من هذه الكتب بل وقراءتها مهما كانت لغة هذه الكتب. 

ولقد قام المركز العربي بتصميم وتنفيذ نموذج لهذا الباحث الآلي على تطبيق «نظام 
اللغات الست الرسمية للأمم المتحدة بالإضافة إلى اللغة البرتغالية. 


وهذا النظام مصمم لكي يسمح للمستخدم باستدعاء وتصفح المعلومات الخاصة 
بالكتب الموجودة في فهارس المكتبات الإلكترونية باللغة التي يطلبها بصرف النظر عن 
اللغة المخزنة بها كا يسمح للمستخدم المتخصص (المكتبي) بفهرسة الكتب وإضافة أو 
تعديل المعلومات المختلفة الخاصة بكل كتاب» S‏ يوفر معلومات إحصائية عن ade‏ 
الكتب التي تم تخزينها. 
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كا eli‏ المركز الفرنسي للغة الشبكات الدلالية الحاسوبية العالمية بعمل نظام بحث 
واسترجاع للمعلومات عبر الإنترنت معتمدا على لغة الشبكات الدلالية الحاسوبية 
العالمية. وكذلك المركز الإسباني للغة الشبكات الدلالية الحاسوبية العالمية الذي وضع 
نظامًا متعدد اللغات لاسترجاع للمعلومات ]* [Y‏ وكذلك أيضا المركز الهندي للغة 
الشبكات الدلالية الحاسوبية العالمية [Y Y]‏ 


o‏ , "- التلخيص والتنقيح الآلي للنصوص 

لا تقتصر استخدامات لغة الشبكات الدلالية الحاسوبية العالمية على التحويل من 
لغة إلى أخرىء فقد تستخدم في داخل إطار اللغة الواحدة. وفي تلك الحالة يكون 
التحويل من شكل إلى شكل أو من أسلوب إلى أسلوب لكن بنفس اللغة ودون المساس 
بالمحتوى. 

من بين الاستخدامات التي تندرج في هذا الإطار: التنقيح الآلي» التلخيص «AI‏ 
والتبسيط الآلي. وني عمليات التنقيح الآلي يتم تغيير بعض المفردات أو بعض التراكيب 
في النص الأصلي للوصول إلى نسخة مختلفة معدلة» فمثلا إبدال بعض المفردات العامية 
بأخرى فصحى أو العكس فيكون النص الخارج نصا مختلفا من المنظور الاجتماعي أو 
التنوع المفردي. 

وبنفس الطريقة يمكن تغيير الأسلوب الأدبي العام عن طريق تبسيط بعض التراكيب 
أو إضافة بعض المحسنات البلاغية التي لا تغير في المحتوى الدلالي للنص وبذلك يتولد 
نص مختلف عن النص الأصلي من حيث الطابع الأدبي. 

ويمكن أيضا استخدام الفهم الذي تصل إليه لغة الشبكات الدلالية الحاسوبية 
العالمية في عملية التلخيص الآلي عن طريق توليد نص مقابل يختلف مع النص الأصلي 
في طوله بحيث يكون مختصرا. ويتم ذلك من خلال تحديد المفاهيم الرئيسية والمفاهيم 
الثانوية والاستغناء عن تلك الثانوية. 

Ul‏ مهمة التبسيط الآلي فهدفها جعل النص الأصلي أسهل من ناحية القراءة والفهم. 
ويحدث هذا من خلال تغيير بعض الرموز أو التراكيب التي من شأنها تعقيد النص. 
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فمثلا في الجملة التالية: «ولد في بهجورة - الأقصر - مصر) تكمن الصعوبة في تحديد 
مدلول العلامة «-» e‏ عندئذ تكون مهمة لغة الشبكات الدلالية الحاسوبية العالمية معرفة 
ما المقصود ببذه العلامة والتعبير عنها بشكل أكثر وضوحا فيكون العنوان المبسط «ولد 
في مجورة في الأقصر في مصر) . 

وهذا التفسير لا يعتمد على العلامة نفسها بل يعتمد على فهم لغة الشبكات الدلالية 
الحاسوبية العالمية لمعنى الجملة» فنفس تلك العلامة في Xue‏ مثل «معارض كثيرة 
بفرنسا كندا» يتم تبسيطها إلى (معارض كثيرة بفرنسا وكندا) . 

وتقوم بكل العمليات السابقة أداة موجودة بالفعل لكنها لازالت تخضع للتطوير 
وهي أداة توت ؛ وهي عبارة عن مكتبة رقمية للنصوص الممثلة في شبكات UNS‏ 
وتضم أكثر من ٠٠٠١‏ عنوان والشبكات الدلالية الممثلة لهم (إن وجدت). 

وبإمكان المستخدم اختيار عرض أي من النسخة الأصلية» أو النسخة المختصرة» أو 
النسخة المنقحة» أو النسخة الممسطة. 


1- دعوة للمشاركة 
من أجل تطوير المعالجة الآلية للدلالة في اللغة العربية قمنا بوضع خطة طريق 
للباحثين في هذا المجال dde‏ تحقيق أفضل النتائج في معالجة الدلالة. تتضمن تلك 
الخطة العديد من النقاط البحثية» منها: 
-١‏ توصيف الأدوار النحوية في الجملة العربية با يقابلها من أدوار دلالية وكيفية 
-Y‏ دراسة المتعلقات النحوية والتصنيف الدلالي للكلمات العربية GÍ‏ كانت فئتها 
المعجمية ce T)‏ الأفعال» الصفات. الظروف). 


Y‏ 7 دراسة كيفية تخزين الكلمات المركبة داخل القاموس واشتقاق الأشكال الصرفية 
المختلفة منها. 


-http://www.unlweb.net/tut لعرفة المزيد عن الأداة «توت» يرجى اتباع هذا الرابط:‎ ١ 
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5- بناء شبكة الكلات العربية الدلالية .(Arabic WordNet)‏ 


70 دراسة أسس ومعايير بناء قاموس حاسوبي عربي» يضم كلمات اللغة 
العربية وما تحتاجه من معلومات K‏ يصلح لتطبيقات المعالحة الآلية 
للغة العربية. 

7- دراسة عن كيفية التعامل مع المركبات اللفظية التي يفصل السياق بين أجزاءها 
ما يؤدي إلى تباعدها وبالتالي صعوبة التعرف عليها. مثل تعبير «قطع مسافة» 
والذي قد gb‏ بهذا الشكل: (قطعت السيارة مسافة ميلين قبل أن تصل لوجهتها) 
أثناء التحليل UNIT‏ هذه الجملة سيكون هناك مشكلة في جعل الحاسوب يعتبر 
هاتان الكلمتان المنفصلتان مفهوم واحد. 

/ا- دراسة التراكيب الدلالية التي لا تقبل التجاور وشروط التجاور. فهناك بعض 
التراكيب الدلالية التي يصعب تتابعها داخل الجملة العربية مثل تتابع الصفة 
بعد الفعل غير مسموح به داخل الجملة العربية كا في المثال: (ذهبت الجميلات 
إلى الحديقة) الجميلات هنا اسم وليست صف فيكون على المحلل الآلي أن يختار 
«الجميلات» ذات وسم الاسم وليس الصفة. 
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الفصل الرابع 
موارد التعلم GYI‏ 
(مدخل إلى التعلم الآليّ) 
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-١‏ شحرة القرار 

في كثير من الأحيان يمكن حسم القرار في ميادين حوسبة اللّغة عن طريق ما يسمى 
«شجرة القرار» (Decisions Tree)‏ . وكثيرًا ما TN‏ شجرة القرار لحل المشكلاات 
التي تسمح طبيعتها بذلك؛ وإليك هذا المثال. لعبة «ما هي الفاكهة؟» سيْسمَح فيها 
بثلاثة أسئلة - بحد أقصى - لوصول إلى نوع الفاكهة. انظر الشكل .)١-٤(‏ 


نف لاذ . 
ded ge m‏ ليمون هندي 


الشكل ١1-4‏ : نوع الفاكهة. 
do‏ بعض الأحيان aL‏ أسئلة بسيطة (من نوع: «نعم/ لا» فقط). ولتحويل 
الشجرة إلى هذا النوع البسيط من الأسئلة يمكن مراجعة نفس المثال السابق في صورته 
الجديدة في الشكل (5-5). 
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نعم 
y‏ نعم y‏ عم 
y e y‏ نعم y‏ نعم 
فاح أخضر aree) je Cie cei‏ )عب اغضر gis‏ 


poss‏ 2 الكرز ليمون لمون هندي 
الشكل 4 -7: شجرة القرار مبنية على نوع الأسئلة «نعم/ لا - قد نحتاج إلى أكثر من Y‏ أسئلة. 
وتُستخدم شجرة القرار بكفاءةٍ مع حلولٍ تعتمد على القواعد. وفي كثير من الأحيان 
تحتاج هذه القواعد إلى تنظيم وترتيب» ويكون ذلك باستدعاء شجرة القرار. 
Y‏ - مصتف بايز المبسط 
تعالوا معًا نصيغ المشكلة رياضياء المطلوب هو حساب P(s,/C)‏ 


حيث s‏ هو المعنى (Sense i) i‏ الذى يمكن أن تأخذه الكلمة w‏ محل التحليل. ويقرأ 
التعبير السابق كالآتى: احتمال المعنى 1 بشرط توفر السياق .C‏ وليس لدينا معلومات 


E 
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يمكن أن نستنبط منها JH‏ مباشرة ل P(s,/C)‏ ولكن «بيز» يقدم UJ‏ تحليلا مهما لابد أن 
Go‏ إليه كخطوة نحو الحل كما في المعادلة ١‏ : 
P(C/s.) P(s;)‏ 
(D Pe 6‏ 


وهذا يقربنا خطوة نحو الحل» فحساب PCs) « P(C/s)‏ ممكن وسهل» اما بالنسبة 
P(C)‏ فلسنا في الحقيقة في حاجة إليها اصلاً EY‏ ستكون موجودة مع كل المعانى 
المحتملة للكلمة w‏ محل الدراسة. ولذلك فالمعادلة السابقة يعاد صيغتها كالآتى: 


Q) g(s/C) = P(C/s) P(s) 


تلاحظ هنا ننا غيرنا اسم الطرف الايسر إلى g(S/C)‏ لانه لم يعد يعبر عن الاحتمال 
بالمعنى المصطلحى الذى قيمته حصورة بين الصفر والواحد. 

وهنا سنحتاج لفرض آخر لتبسيط الحل من خلال cias‏ بسيطء Jis SI.‏ 
لدرجة كبيرة» وتتنافس نتائجه -في كثير من الأحيان- مع نتائج مصتفاتِ أخرى أكثر 
منه تعقيدًا. ál‏ «مصنف بايز المبسط (Naïve Bayes Classifier)‏ وجريا على عرف 
ÉSI‏ عند استخدام مصطلح كثير الاستخدام أن يختصروا اسمه باستخدام الأحرف 
«dol‏ أي (م ب م) ويختصرونه بالإنجليزية (NBC) LA‏ ويسمى المبسط OY‏ هناك 
فرضية رياضية لتبسيط الحل وهي اعتبار أن الكلمات التي تمثل السياق مستقلة بعضها 
عن بعض- وإن كان ذلك في الحقيقة غير صحيح» OM‏ بعض الكلمات يقترن كثيرًا 
بكلهات أخرى. وهذا الفرض سمح UJ‏ بإمكانية التعامل مع السياق بشكل مبسط. 
والسياق هو مجموع الكلمات التي سبقت الكلمة مباشرة أو تلتها. ويجوز لنا بهذا 
الفرض أن نكتب سياق الكلمة w,‏ كالآتي: 

(3) P(C) = P(w, ( * P(w, )...P(w, ) )*P(w, )...P(w) 
كالآتي:‎ (Y) وكذلك يمكن إعادة كتابة المعادلة‎ 
(4) g(si/C) =[P(w,/s) * PQw/s)...P(w, /s) 
*P(w.. /s)...P(w,]*P(s) 


=s 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 — ييا 


إن صياغة المعادلة يجعل الحل في متناول أيدينا. فلو أننا LSE‏ من حساب الكميات 
(Pws)‏ ثم حسبنا أيضًا P(s)‏ نكون قد حسمنا الأمر كله وعرفنا أي J AH‏ في هذا 
السياق هو الأوفق. 


إن حساب هذه الكميات يمكن الرجوع إليه في ملحق-١‏ لنظرية الأاحتالات 
وكذلك فصل «نمذجة اللغة». ولايفوتنا هنا أن نذكر بأن الاحتمال P(S).‏ يسمى النحو 
الأحادي» وهو احتمال أن تأتي الكلمة بهذا الحل عموماء بصرف النظر عن السياقات 
المختلفة (أي: احتمال وجودها ككلمة مفردة). 

وناك S‏ ع ROB‏ ی داقر ل ديصل ره الا sabahat‏ 
«قال» - إلى أكثر من 944 , (s ٠‏ كلمة «قال» من مادة قيل (أي النوم بالظهيرة) قد 
V‏ يصل نحوها الأحادي - المشروط بورود «قال» - إلى .٠ , ٠٠١‏ والجدير بالذكر أننا 
سوف نقابل عند تطبيق هذا الخوارزم أو هذا المصنف مشكلة» وهي أن بعض الكلمات 
لم نرها من قبل في الذخيرة اللغوية التي تدرب النظام عليها. وني سياق جديد إذا أتت 
كلمة واحدة لم تر من قبل» فسيكون احتمال ورودها صفرّاء وسوف نضرب في صفر 
فتكون النتيجة صفرا مهيا كانت قوة شواهد الكلمات الأخرى في السياق . ولقد واجهنا 
هذه المشكلة في الباب الثامن - عند حَدِيئنا عن "eio‏ واستطعنا أن نمنع هذا 
الصفر بافتراض نسبة احتمال صغيرة نسبيا لما لم نره من الكلمات. 


Y‏ - الشبكات العصبية 

الام بمقدرة رائعة على البيان بمُختلف cael pl‏ سمعا وبصرا "Y‏ 

...الخ . ولقد Ld‏ الدماغ البشري أنظارٌ العلماء» ولا يزالون مبهورين بقدرة المخ 

E ucc qi 
كيفية ذلك. ولقد حاول بعض العلاء فهمّ الوحدة الأساسية واللبنة الأولى في بناء مخ‎ 
الإنسان» ونقصد «الخلية العصبية).‎ 

يحتوي مخ الإنسان على نحو ٠١‏ مليارات خلية عصبية ولكل خلية منها اتصال 
بغيرها من الخلايا بمتوسط يصل إلى نحو ٠‏ آلاف وصلة ب ٠١‏ آلاف خلية أخرى. 
DNE.‏ موصت شر ريك indie nc xau ad‏ 
الوصلات 052 ا معلومات. وهذه الوصلات لا تبقى بلا استخدام» Él‏ تتآكل وتضمر 


Asus 
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مع الوقت وخاصة التي تبقي بلا استخدام. فعددها كامل عند الصغار وتقل مع الزمن. 
فالذي يحفظ القرآن صغيرًا عنده الكثير منها ليخزن فيه ما chat‏ والذي يحفظ على 
الكبر جد صعوبة أكبر سواء في الحفظ أو تذكر ما يحفظ. 

وبالنسبة للغة - وهى متطورة Ms‏ عند الإنسان - فقد رُويّت حادثة عن طفلة في 
الاد من سره وقد Dal Lecce‏ رف d ird aus‏ تحت (لدزل» و کان رای 
إليها الطعام دون أي مخالطة أو Bole‏ حتى بلغت السادسة من عمرها. وبعد اكتشاف 
هذه البنت (بالطبع عوقب أبوها»» أخذ علماء كثيرون البنت لينظروا - نفسيا ولغويًا - 
ماذا فقدت؟ وكيف يمكن تعويضها؟. وحاولوا تعليمها اللغة شهورا طويلة فاستطاعت 
أن تستوعب أسماء الأشياء» مثل: شجرة» طريق» ثلاجة.... إلخ. ولكن تعبيرات مثل 
«في الثلاجة»» «إلى المدرسة»).... إلخ» لم تستطع تعلمها؛ فاستنبطوا أن الإنسان مزود 
بأداة للغة (جزء من الدماغ خصص C‏ وها وقتها للتعلم. فإذا مر الوقت المناسب 
ضعفت وتآكلت. ولعلها تلك الوصلات التي تتآكل إذا مر وقت استعماها وم تستعمل. 
لذلك من المهم جدا أن نعطي الأولاد حقهم في التعلم واللعب» ولكل سن ما يناسبه من 
الألعاب وما يناسبه من المفردات وقواعد للغة التي esso‏ تعلمها. 

ولقد اجتهد العلماءٌ ووضعوا نموذجا رياضيًا مبسطا لعمل الخلية العصبية» كا 
تعرّضوا لكيفيّة الجمع بين طبقات الخلايا العصبيّة» على النّحو المي في الشكل )£ (Y‏ 


Y = f(z) 


-1 4 saagas. 
f(z)= "AB z أو‎ "PET الت‎ z 


الشكل 4-": النموذج at JE‏ المبسّط للخليّة العصبيّة. 
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إن الوصلات بين الخلايا (الشكل (F-E‏ تحمل الأوزان w»‏ لكل إشارة «داخلة 
للخلية؛ وإذا زاد المجموع المرجح (511111 (weighted‏ في حالتنا ناا ال على ما 
يسمى «العتبة» (threshold)‏ ويرمز لا بالرمز 0 (وهي قيمة تتعلمها الخلية كا تتعلم 
الوصلات قيم الأوزان»» فإن الخلية تعطي خرجا y‏ له قيمة عالية يُعبر عنها رياضيا 
بالقيمة eC»‏ وإلا فإن قيمة O0 S y‏ 

والآن يمكننا أن نتعلم كيف تعمل الخلية العصبية للتمييز بين شكلين مثلا. فلو 
كانت لكل شكل ميزات مختلفة (الطول والعرض مثلا) فإننا نقيس هذه الميزات أو 
الخصائص ونضعها 3( متجه (Vector)‏ من الخصائص: 


ثم نعيد هذه القياسات مرات عديدة لكل شكل على حدة. وتعالوا نفرض أن لدينا 
- من هذه الخصائص التي تقاس - اثنتين فقط (ليسهل التصور). لو تصورنا أن لدينا 
أولادًا وبنات في سن معينة» وكنا نقيس الطول والوزن ونحاول من (AAE‏ معرفة جنس 
الطفل sa‏ فستكون قياسات الأولاد والبنات على التحو AM‏ في الشكل (E-E)‏ 


(الوزن) 22 


(الطول) 1× 
الشكل ٤-٤‏ : عينات من الأو لاد والبنات بعد قياس الطول والوزن لكل منهم (حيث JE OO‏ عينة 
من الأولاد و «*2 تمثل عينة من البنات). 


-Y£Y- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


والمطلوب من النموذج الرياضي للخلية العصبية التفرقة بين الأولاد والبنات الذين 
أخذت قياساتهم» كا في الشكل )£ 07( (ملاحظة: افتراض تايز الجنسين بهذا الشكل 
LE‏ بعض الشيء لغرض الشرح فقط). 

فبتدريب النموذج الرياضي للخلية العصبية» EE OE‏ ل ow, ov,‏ 0 يمكن الوصول 
إليها بالتدريب والتعلم حتى تفصل بين عينات الجنسين؛ فإذا كانت قيم EE G, ox)‏ 
d5Y jl‏ فإن قيمة الخرج 99 للخلية يكون .2١١‏ وإلا فإنه يكون «20. إذن» كيف يتم 
تدريب الخلية؟ إن هذا أمر بسيط في الواقع» ويشبه تعليم الأطفال. إننا حين نعلم 
الأطفال نريهم الشكل ونقول هذا c‏ ونعيد ونكرر حتى يستطيع الطفل تمييز هذا 
الشكل وحده. نقوم بعملية ماثلة رياضيا حتى نتمكن من الوصول بالأوزان wy)‏ 
Qv,‏ لتمثيل فاصل بين عينات الأولاد والبنات كا في الشكل (E-E)‏ 

حتى الآن يمكن - من خلال نموذج رياضي لخلية عصبية واحدة - التمييز بين 
شكلين بسهولة؛ ولكن حتى نتمكن من التمييز بين أشكال معقدة يجدر بنا أن نستخدم 
تراكيب معقدة وفي شكل طبقات للخلايا العصبية. انظر الشكل )0-6( 


Hidden 
Input 
X1 Output 


الشّكل 0-4: الخلايا العصبية في شكل طبقات. 
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هذه الأشكال المركبة قادرة على تعلم التفرقة بين أشكال معقدة (وأكثر من شكلين 
of à‏ واحد). وعند تدريبها تستخدم طرق رياضية لتعليم الأوزان (weights)‏ من 
خلال استخدام الخصائص المختلفة للأشكال المطلوب التعرف عليها. وتخيل عند كل 
سهم وزن G0‏ قابل للتعليم. 

وتتميز الشبكات العصبية (Neural Networks)‏ بخصائص جذابة للعاملين في 
حقل التمييز بين الأناط» من أهمها: 

١-أنَّ‏ أعباء الحسابات تتوزع على كمية كبيرة من الخلايا العصبية؛ وكلها تعمل 
على التوازي فلا يعطل بعضها بعضا. وهذا مناسب للتطور الحادث في تقنيات 
الحواسيبء إذ إن هذه التقنية تتجه إلى استخدام كمية كبيرة من المعا جات pro-)‏ 
759 التى يمكن استخدامها على التوازي. 

ol-Y‏ الآوزان (weights)‏ التي تتعلمها تتوزع فيها المعلومة الواحدة على أوزان 
كثيرة؛ والدليل على ذلك أننا لو عطلنا G)‏ الشكل 5 Co‏ عددًا من ناذج LAH‏ 
العصبية (مثلا /٠١‏ من المتاح منها - بغرض التجربة»» فغالبا ستظل تعمل 
بكفاءة تامة؛ وهذا بالضبط ما يحدث في مخ الإنسان» إذ تموت كل يوم خلايا 
ويظل المخ يعمل بكفاءة تامة» إلا إذا تأخر العمر ومات كثيرٌ جدا من هذه 
الخلاياء أو عند حدوث حادث يصيب خلايا المخ بشدة؛ عندئذ ربا تضعف 
هذه الكفاءة. هذه daga al]‏ هذا للكائنات الحية» لأا تتعرضص للإصابة 
والمرض مما يعطى فرصة لفقد بعض الخلاياء أو حتى لعامل الزمن. a‏ في 
الحاسبات المألوفة لدى البشر لا تتحمل البرامج التقليدية أن تفقدها GI‏ شىء 
وإلا تعطلت عن العمل فورًا. 

إلا أن هناك مشكلة تواجه الباحثين في Jle‏ الخلايا العصبية» وهي eel‏ عند تركيب 

عدد كبير منها لحل مشكلة بعينها لا يمكنهم الوصول للحل الأمثلء وإنا يحاولون 
الوصول إلى أحسن حل ممكن» وليس هناك ما يضمن أنه الحل الأمثل. 

وهناك مشكلة أخرى» تكمن في أنهم لا يعرفون سلمًا طريقة لتركيب هذه الخلايا 

حتى نضمن أحسن حل للمشكلة المراد استخدام النموذج الرياضي للخلايا العصبية 
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في حلها. آي» Y‏ يعرفون عدد طبقات الخلايا وعدد الخلايا في كل طبقة - كل ذلك 
يحاولون فيه بالتجربة والخطأً. 


5 - آلبّات المتحهات الداعمة (Support Vector Machines -SVM)‏ 
إنه نوع جديد نسبيا من المصنفات (classifiers)‏ أثبتت نتائجه تفوقه على كثير من 
المصنفات اللأخرى. وقد قدمه العالم (فابنيك) عام 1840 ولكي نفهم المبادئ التي 
تقوم عليها آليّات المتجهات الدّاعمة علينا أن ننظر إلى حالة وجود صنفين فقط من 

الأصناف المراد التفريق بينها. انظر الشكل )£ -5). 


الشّكل 5-4: بيانات صنفين» لكل ego‏ رمز ختلف. 


إن أي خط بين الصنفين سيكون كافيا للفصل بين الصنفين كما في الشكل (I-E)‏ 
ولكن هناك فاصل سيكون هو الأفضل على الإطلاق» حيث يكون في نصف المسافة 
TUS! dli as‏ لد Scd ot s Li‏ ر 
رسمنا خطين متوازيين من ناحيتي «الفاصل الأفضل» سيمس نقاطًا تتبع الصنف 
الأول ونقاطًا تتبع الصنف الآحر. انظر الشكل .)۷-٤(‏ وهذه النقاط أهمية كبيرة» 
إذ هي التي تساهم أساسًا في معادلة «الفاصل الأفضل» ولذلك تسمى «المتجهات 
الداعمة» (Support Vectors- SV)‏ 
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الشّكل ٤‏ -۷: أفضل فاصل بين الصنفين والنقاط التى تمس الحدود (المتجهات الداعمة). 
معادلة الحل: لنفرض أن: 


X‏ يمثل متجه الصفات والخصائص التي يمكن قياسهاء والمطلوب استخدامها 
لمعرفة النقطة المقاسّة خصائصها. هل تتبع الصنف الأول أو الصنف الآخر؟. 


tyr‏ تساوي V‏ إذا كانت النقطة المقاسّة تتبع الصنف الأول. 
in‏ عدد افراد العينة أى أن n‏ ,... ,7-1 
Ww‏ متجه من الثوابت المطلوب الوصول إلى قيمها لمعرفة معادلة الخط الفاصل 
الأفضل. 

: كمية ثابتة مطلوبة لمعرفة المعادلة الخاصة بالفاصل الأفضل» حيث معادلة LLI‏ 
(والذي يمكن أن يكون مستوى ذا بعد أو متعدد الأبعاد) للفاصل الأفضل: 

TX-b-0w 
JIS ويكون الحل‎ 
n 


n 
w= diYiX; D= yy — aiYiXiî Xx for any ay > < 
1-١ 


i=; 


AFT 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


حيث زه قيم لازمة للحل. وتأخذ القيمة C‏ للمتجه البعيد عن الحدود وله قيمة 
أكبر من «20 إذا كان من المتجهات الداعمة. ونقسم مجموعة المتجهات الداعمة S‏ 
ويمكن أن نكوّن دالة fo ll‏ والتي تكون قيمتها كافية لحسم النقطة إلى GÍ‏ 
|| نفين تند 75 
fa) = 0 apXi X, +b‏ 


ومصطلح و € X;‏ أى مجموعة المتجهات ر المنتمية إلى المجموعة s‏ أى is pat‏ 
المتجهات الداعمة. 

ويتميز هذا الحل بأنه يحمل طابع أنه أفضل فاصل بين الصنفين المراد فصلها. إن 
الوصول إليه ليس بالتجربة والخطأء Ely‏ يمكن حسمه بالمعادلات الرياضية. 

وهذا الحل يمكن حمله للحالات التى تتداخل فيها نقاط الصنفين» وليس فقط 
للحالة المثالية التى تناولناها سابقا. ليس فحسب؛ بل يمكن استعماله بطريقة ذكية في 
حالة الأوضاع التي يستحيل فيها الحل في الفضاء الخطي „Linear Space‏ 

خذ مثالا للتوضيح. انظر الشكل (٤-۸)؛ S‏ ترى في (a)‏ من الشكل (A-E)‏ 
مكان OX‏ أمكن بالرسم إيجاد معادلة خطية للفصل بين الصنفين. 

ولتعميم الفكرة فإن الحل يظل الحل الأفضل لو استبدلنا X‏ ب P(X)‏ حيث (() ل 

هذه العملية قاد بها د ات غير سهلةة کا أن اخ الأفضل ليل IR‏ 
بعض الأحوالء إذ قد نحتاج لتجربة هذه العملية» والتي تسمى نقل المشكلة إلى فضاء 
آخر أكثر من مرة» مع أنواع مختلفة من هذه الفضاءات» أي الأنواع المختلفة (X) cse‏ © . 

* s * X 
(a) 


يتداخل الصنفان V (Y c)‏ يمكن الفصل بينهما في الفضاء الخطي (a)‏ 


-\ éV- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$5 ييا 


(b) 


إمكانية إيجاد حل إذا ربّعنا القيمة المقاسة × والمستخدمة للفصل بين الصنفين 
:۸-٤ JS‏ كيفية حل مشكلة يستحيل حلها في الفضاء uil‏ 

ومن الملاحظ أنه في الحل fp)‏ المذكور عاليه لا تظهر × وحدهاء ولكن elo‏ تظهر 
كالآي × XT‏ لذلك سيظهر في JH‏ بعد عملية الانتقال(,]7) © × Je T Qu)‏ 
نحن في حاجة لحساب (x)‏ أصلا؛ الحقيقة لاء وهذا أفضل كثيرا OM‏ الكمية 

T 
K(X, Xy) = P (Xj) * 6(X,) 

في كثير من الأحيان يكون حسابها أسهل بكثير من حساب P(X)‏ ؛ ]55 لذلك 
شروط رياضية. ونسمی الدوال التي تخضع للشروط الرياضية هذه (والتي تجعل 
حساءها ميسورا) بالدوال النواة أو الدوال الجوهرية (Kernel Functions)‏ 


f 2 5 5 5 
(Hidden Markov Models - HMMs) ماركوف المخبأة‎ zle -° 


مُكل نماذج ماركوف المُحَبًاة مجموعة من النماذج الرياضية التي edes d‏ في العديد 
من التطبيقات؛ ومن هذه التطبيقات Lu‏ اللغات الطبيعية. وتُستخدّم هذه ZÉ‏ 
أساسًا للتعامل مع الظواهر التي تُعرّف فيها النماذج المراد التعرّف عليها على نها سلسلة 


-Y£A- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


من الوحدات المتتابعة. خذ مثالاً لذلك؛ كلمة مثل: «كتب» (مكتوبة ومنطوقة)؛ فإنها 
مثل أي كلمة تُعرّف على el‏ تتابع من وحدات (كتابية أو صوتية). 

ونبداً بالتدرج لرسم الحالات (State Diagram).‏ وتشمل حالات اليقين 
للاحتالات المتعددة والمتداخلة. 
رسم (State Diagram) SYL‏ 

يتقلب الإنسان عمليا بين حالات كثيرة؛ وفيا بلي بعض الأمثلة التوضيحية. 

:١لاثم‎ ١١ه‎ 

يحيى الإنسان في الأسبوع بين أيام الجمعة» فالسبت» cae MG‏ فالإثنين» فالثلاثاءء 
cel NU‏ فالخميسء ثم يعود للجمعة مرة أخرى. وني كل يوم من هذه الأيام تكون 
للإنسان حالة مختلفة؛ فإما أن يكون في عمل أو إجازة؛ ويمكن توضيح ذلك في الشكل 
)£-4(. 


الشّكل d‏ -4: بيان حالات الإنسان لأيام الأسبوع. 

باعتبار أن الإنسان الذي ee‏ في يوم الإثنين JULI‏ £ أو S, (State ٤‏ 

وينتقل الإنسان من حالة إلى أخرى يوميًا الساعة ١١‏ صباحا. وليس في هذا المثال 
احتمالات 5 o]‏ هو مثال للحالات التي يحصل فيها انتقال محدد وغير احتمالي لأنه عند 
أي مكان محدد على الأرض سيكون الإنسان في حالة محددة من أيام الأسبوع. 

ه.,؟ مثال؟: 

حالة الإنسان الاجتاعية؛ فالإنسان يتقلب بين هذه الحالات: 

٠»‏ عرّب. 


0 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


٠‏ وقديطلق. 
dia *‏ 
ويمكن رسم هذه الحالات کا بالشکل )78 O‏ 


$5 Sp Sy S, الأربعة‎ e I الحالات‎ : ٠١-4 الشّكل‎ 

كما هو مبين في الرسم فإن العَرّبَ إما أن يتزوج وإما أن يظل Se‏ إلى الوفاةء وكذلك 
المتزوج إما أن يظل كذلك حتى الوفاة أو رب يطلق ثم يتوفى أو ربا تنوفى زوجته فيصبح 
أرملاء oos‏ يتزوج أو يبقى كذلك حتى الوفاة. 

ولكن في حالتنا هذه ليست SY‏ محددة idle D]‏ وبدراسة حياة ٠٠١‏ حالة 
في بلد ما وجدنا هذه الأرقام: 

. عدد من عاش عمره كله ٠١ oe‏ أفراد. 

* عدد من تزوج ٩۰‏ ومن طلق أو فقد زوجه "١‏ أو ثلث من تزوج أى ANY‏ 

١ .‏ من طلق أو ترمل تزوج مرة أخرىء أى الثلثان بنسبة ./.٦۷‏ 


ويمكننا إعادة رسم الشكل ea C E)‏ على التّحو GE‏ في الشكل .)١١-٤(‏ 


و ه6١1-‏ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


0.1 


الشكل :١١-4‏ إحصاء الحالات e MI‏ الأربعة S, $5 Sy S,‏ 
في الشكل )١١-5(‏ يمكن ملاحظة الآتي: 
٠‏ أن كل حالة يخرج منها سهم أو أكثر يكون مجموع الاحتمالات للأسهم 
الخارجية ١‏ . 
٠‏ في حالة الوفاة يبقى التو بالطبع على حاله مهما طال الزمن ولا تتغير حالته؛ 
ويعبر عن هذا الوضع بالسهم الخارج والداخل JU-‏ الوفاة» وعليه الاحتمال 


COUTE 
وضع المسألة التي بين أيدينا في شكل رياضي على‎ A ويمكن من خلال المصفوفة‎ 
JÕI الحو‎ 
0 09 0 Q1 $ 
A-[9 0 9033 067 | $ 
(9067 0 033] s, 
0 0 0 1 5, 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


(as y‏ الف 3 A‏ عن XU‏ السابقة سيك ترد لحان os JUNI‏ كل 
حالتين من (,5 Sp‏ ,ر8 ,,5) بالرقم المذكور بينهما. مثال؛ Jie VI‏ أن ننتقل من Y IH‏ 
إلى الحالة Y‏ يساوى 7”, ٠‏ وهكذا. 


بعد أن تعرفنا على رسم cw YLI‏ سواء أكان مؤكدًا el (Deterministic)‏ احتما 


z 
A 


- 


(Probabilistic)‏ ستحاول أن نعرص Ns‏ أكثر تعقيدًا. 


gu -Y,o 


تعال نتصور أن لدينا Y‏ أوعية وني كل وعاء عدة ألوان» ولتكن أربعة ol JE‏ (أحمر» 
cz‏ أزرق» أصفر)؛ وسنرمز للألوان الأربعة بالرموز G, B, Y)‏ ,8). نريد أن 
نصف عملية معقدة لإخراج الألوان كالآتي: 


سنلقى زهرًا لنحدد بأىّ الأوعية نبدأ (يمكن أن نحول الزهر السدامى إلى 
ثلاثى إذا اعتبرنا أن رقمى «(Y >= co eY >= £4Y ؛١>- Y 2١(‏ وبذلك 
سنحدد بأي الأوعية نبدأ. ويمكن التعبير الرياضى عن ذلك JIS‏ 


T= (T, To, T.) 
والشرط أن يكون:‎ cele g بمكوناتها الثلاثة تمثل احتمالات البدء لكل‎ m حيث‎ 
(n, + TF T,) =1 
في كل فترة زمنية محددة - ولتكن كل دقيقة- سنلقى الزهر مرة أخرى لنحدد‎ 
كما يلي:‎ A بمصفوفة‎ 
011 012 413 
A= |4211 022 05 
031 03) 03 
مصفوفة احتمالات الانتقال بين الأواني؛ وإذا عبّرنا عن الإناء‎ eb A وَتَعْرف‎ 
«مصفوفة‎ A فسوف يكون بإمكاننا تسمية‎ (State) JLL الذي عليه الدور‎ 
Transition Matrix) بين الحالات المختلفة المتاحة‎ (JU VI الاحتالات‎ 
مع شرط:‎ . (State 


—YoY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


(a + a + a) =1 
الصفوف.‎ Éi وكذلك في‎ 

* في كل مرة نقف على إناء سوف نمد أيدينا ونأخذ Ca‏ من ألوانه الأربعة المتاحة 
GE pte‏ (بافتراض وجود عدد كبير من كل لون لا يؤثر على النسب بينها أو tel‏ 
تعوض ما أخذ منها حفاظا على النسب بينها). 
ولأن كل إناء يحتوي على نسب مختلفة Dem op‏ خروج أي لون يختلف من إناء 
لآخر. ويعبّر عن ذلك بالمصفوفة CB‏ حيث: 

State, State, State, 
bi b b31 

bı2 b» b32 


bis b23 b33 
bi, bj, b34 


وهكذا OB‏ رط تعني احتمال اللون الأزرق في ا حالة الثانية. مع شرط : 


"X OU) Cà 7 


(a t at ata) l 
وكذلك في بقيّة الأعمدة.‎ 

-٤ ,?‏ مثال؛:_ 

بافتراض البدء حتًا من الإناء الأول» حيث يُسمح فقط للانتقال للإناء اللاحق مع 
تجهيز الزهر لذلك؛ بمعنى أنه يأخذ القيمة Y‏ أو Y‏ فقط )3( هذا JUL‏ يمكن استخدام 
العملة «ملك = ١ءكتابة‏ = (UY‏ 

إذا كان ١س‏ نفس الحالة (الإناء). 

إذا كان Y‏ — الانتقال للإناء الآخر؛ حتى إذا وصل إلى الإناء الأخير توقف الانتقال. 


هب أننا بعد وضع الضوابط للمسألة كا أسلفنا وبعد طرح الزهر مرات كثيرة 
عديدة سجلنا الاحتمالات NI‏ 


—*YoY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)ُ:6ا — | ا 


Ào xA 3 ١ ١ 
Y 
me gs $ A= se own]; B= f 
Y o ١ Y 
i r 


0.8 0.7 1.0 
0.2 0.3 
R vd 5 ا“‎ 
G ١ ۷ id 
B (o su Y 
Y (6 E (06 


وإليك المسألة؛ هب أننا حصلنا على ترتيب الألوان من اليسار إلى اليمين» ولا نعرف 
أيّ الألوان e‏ من أيّ وعاء؛ كل ما نعرفه أن اللون الأول EO‏ حالتنا) أخذ حت من 
الإناء الأول ,5 وأن اللون الأخير Y).‏ في حالتنا) أخذ من الإناء الأخير S,‏ 

Time: 1 2 3 4 5 6 الزمن:‎ 

Colors: R R G G B Y الألوان:‎ 


نريد أن نعرف ترتيب الأواني» إذ في معرفتها حل للمشكلة. لو فكرت قليلا لعلمتَ 
أن هناك احتمالات كثيرة جدًا لترتيب تلك الأواني» وهي تؤدي إلى نفس ترتيب الألوان 
المذكورة عاليه. ويمكن رسم المسارات الممكنة GS‏ في الشكل .)١١-٤(‏ 


—Yof£- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
^o EE‏ 


— 


———————— — p 


الشّكل ١7-4‏ : عرض لمسارات ال حل الممكنة باستعراض الحالات المتاحة مع الزمن. 
لو تتبعت الشبكة المرسومة في الشكل )١١-٤(‏ لأمكنك تتبّع عشرة مسارات 
ختلفة» ولو اخترنا أحد هذه المسارات (المؤشر في الشكل)ء كيف نحسب احتمالية هذا 
المسار كمثال؟ 


P(ofthe selected path) = احتالية المسار المختار للدراسة‎ 
=m; * P(R/s,) * P(s;/s;) *P(R/s;) *P(s,/s,) *P(G/s;) * 
ا‎ IL CIE C J 
t-l الزمن‎ t=2 t=3 
* P(G/ s3) *P(s4/s;) *P(B/ s3) *P(s3/83) *P(Y/s4)P(s;/ s;) 
t-4 t-5 t-6 
= رع)‎ * bj) * (an * b) * (a; * b) * (a5 * b) * (a5, * 
b) * (a4, * b) 
= (1 *0,8) * (0,8 * 0,8) * (0,2 * 0,7) * (07*0,7) * (0. 3 * 0,3) * (1 * 0,5) 
= 0,00158 


—\00— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 — ييا 


وهكذا لو حسبنا المسارات العشرة سوف نجد أن أحد هذه المسارات هو الأعلى 
احتمالا؛ ويرشح هذا المسار OM‏ يصف ترتيب الأواني التي تعاملنا معها عبر ٦‏ وقفات 
زمنية. وحتى يضح ما قمنا به فإننا عند كل وقفة زمنية نحسب: 
(احتمال أن نصل إلى ال حالة (الإناء) التي وصلنا إليها) * (احتمال خروج اللون الذي 
خرج من الوناء الذي نقف عنده) 
ثم نكرر ذلك عبر الوقفات الزمنية كلها. 


ويسمى هذا النموذج الرياضي «نموذج ماركوف (HMM) ESI‏ ولهذا النموذج 


الرياضى t bes Y‏ 
المسألة الأولى: 
إذا توافرت كميات مناسبة من المشاهدات المتتابعة 
;50 و0 0 > O‏ 
وتوفر كذلك نموذج HMM‏ ويعرف رياضيًا كالآتي: 
A = (T,A,B)‏ 
فا هو احتمال أن تنتمي المشاهدات إلى النموذج الرياضي /112/2؟ 
المسألة الثانية: 
المعطى: المشاهدات المتابّعة 
ج0...و 0و 0 > O‏ 
وكذلك نموذج HMM‏ الرياضيٌ: 
A = (T,A,B)‏ 


والمطلوب معرفة تتابع الحالات (State Sequence)‏ الأكثر احتمالا؛ وتسمى هذه 
المشكلة فيتربي Viterbi‏ 


—\01- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


المسألة الثالثة: 

المعطى: المشاهدات 0. والمطلوب: تقدير قيم معاملات التموذج A = (A.B) AL‏ 

أي تقدير قيم ره b,‏ , ,7» والتي تجعل الكمية PO)‏ أعلى ما يمكن. 

وقبل الخوض في الحسابات المرتبطة بنماذج ماركوف المُحَبّأة» تعالوا نراجع بعض 
التعريفات. 

070,50. 03, 04.0, 

تعني سلسلة المشاهدة CO‏ والتي تتكون من T ade‏ مشاهدة؛ تعني في حالتنا سلسلة 
الألوان المتتابعة والتي من المفترض أن نبحث فيها عن سلسلة الأواني التي أخر جنا منها 
هذه ol YI‏ المتتابعة. 

عدد الحالات (الأواني) في النموذج تحت الدراسة N=‏ 

عدد الألوان التي يمكن استخراجها من أي أناء M=‏ 

رمز لكل حالة أو أناء S}, ... Sy‏ ,ر8 , ,8 = 8 

مصفوفة الانتقال بين الحالاات» حيث ره يمثل المكون A= (b)‏ 

رقم ز, في المصفوفة» وهو يمثل احتمال الانتقال من ا حالة G)‏ إلى ا حالة O‏ 

مصفوفة ربط الألوان أو الرموز (۸) المنبعثة من (b, B G) JH‏ - 

(أو الإناء). b, s‏ تعنى احتمال إخراج اللون 6 من IH‏ (الإناء GE‏ 

T= T, Ty Ty احتمالات البدء‎ 

حيث ,7 تعني احتمال البدء با حالة (7). 


وني كثير من التطبيقات نفرض على النموذج البدء بالحالة الأولى» وهو ما يعني أنَّ 
1= ,5 وبقيّة حالات البدء = te‏ وفي هذه ULH‏ يكون (1,0,0,...0) T=‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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Forward-Backwar Algorithmi àlzJ- eU 5U» e حل المسألة الأولى: خوار‎ 


= وو2.)07,0‎ 0p Ll; s/ X) a È 
أي احتمال مرور سلسلة المشاهدات من ,0...,ر0,,0؛ ومع البدء بالحالة الأولى؛ هذا‎ 
t تمثل رقم ال حالة 1 عند الزمن‎ i حيث‎ A بعينه‎ C باعتبار أن لدينا نموذج ماركوف‎ 

ويتكون الخوارزم «للأمام ثم الخلف» من ثلاث خطوات: 
الخطوة :١‏ خطوة البدء 


Ne‏ >1 >1 ,(ره)رطرج- 


(D في زمن‎ O يم = تحتوي على مجموع احتمالات المسارات من البدء إلى الحالة‎ Ou 


الخطوة ۲: خطوة التكرار 
For £-1,2,.... T- 1, 1< j< N‏ 
N‏ 
Û)‏ 
X417 p 9t); ] T bi (04)‏ 
1-1 


حيث ) +,0) رط تعني احتمال أن يكون اللون (أو الرمز) عند الزمن 1+] خارجا 
من الإناء (7). 
,8 تعني مجموع المسارات الواردة بتغيير الحالة رقم G)‏ من ١‏ إلى N‏ 
الخطوة Y‏ خطوة الانتهاء 
N‏ 
P(0/A) = Àj «r (i)‏ 
1-1 
PONE‏ تعني احتمال sal‏ سلسلة المشاهدات © إلى النموذج A‏ وتحسب 
كمجموع احتمالات المسارات المحتملة من البدء إلى النهاية عند الزمن T.‏ 
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وني كثير من التطبيقات يكون لزامًا علينا أن نبدأ بالحالة الأولى وننتهى بالحالة 
الأخيرة N‏ وعندئذ: 
P(0/ à) = <»‏ 


ويسمى النموذج في هذه الحالة نموذج الشمال-يمين (Left-right model)‏ 


“ejg -ti 1‏ 1 
المسالة الثانية: خوار زم فيترى: 


يتكون هذا الخوارزم من أربع خطوات: 
:١ à od‏ خطوة البدء 
bi (01) 1< i< Nój(i = Fj *‏ 
zu = 0‏ 


حيث (1)1 8 تحتوي على احتمال المسار الأعلى احت الا من البدء إلى الحالة (1) في زمن 
0« و( )م y‏ تحتوى على رقم JU-‏ التي انتقلنا منها إلى الحالة G)‏ على المسار الأعلى 
احتمالا في الزمن ©). 


الخطوة ۲: خطوة التكرار 
الوقت ا يتغير من L> T‏ >2». والحالة Q)‏ تتغير من 171[ >[ >1 
max ([5:-1() * ail + bj(ot)‏ = )9:0 
Vt) = argmax [8,-1() * aj]‏ 
I<i<N‏ 

حيث (ر ې و )رج تعني احتمال أن يكون اللون عند الزمن t‏ خارجا من الإناء (أو 
الحالة) رقم G)‏ 

.)1( تعني أننا نحسب أعلى قيمة لما بين الأقواس [ ] بتغيير قيمة‎ mex T] y 

EAN Lh.‏ تعني أننا نحتفظ برقم O)‏ الذي أعطى أعلى قيمة لما بين الأقواس 
[ أ» وليس قيمة الحسبة نفسها 
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الخطوة :Y‏ خطوة الانتهاء 
P'- max [êT(D]‏ 
ir = argmax [òr(i)]‏ 
i‏ 
حيث P*‏ تعنى احتمال انتماء سلسلة ألوان متتابعة O‏ إلى النموذج GAB)‏ =۸ على 
اسا Nee e M UL oc‏ 

و ّا هو رقم الحالة على المسار الأعلى احتمالا عند الانتهاء بالزمن T‏ 
اة خط وم ف PIER‏ 

For t = T-1, T-2,...2,1 
أي بتراجع الزمن‎ 

if = Vgl) 


حساب ع1 تعنى «بالتراجع» يمكن الحساب عند كل زمن ‏ الحالة (1) التى تقع على 


المسار الأعلى احتالا. 
حل المسألة الثالثة: تقديرات «بوم- ولاش" لثوابت نموذج ماركوف BA‏ 
)-(1,A,B)‏ 


أي big m pese‏ 
ويُمكن القيام بذلك على التّحو JÖN‏ 


ages 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


اختيار قيم عشوائية هذه الغوابت 


استخدام القيم السابقة للثوابت لحساب القيم الجديدة بتمرير كل المشاهدات 0 على 
النموذج بثوابته المقدرة (من الخطوة السابقة) ثم الحساب للقيم الجديدة كالآن : 
pez‏ مرات البدأ بالحالة (i)‏ 


a 


مجموع مرات التي مر يما النموذج على الحالة IH (E)‏ — , 
مجموع مرات التي مر با النموذج على G) UH‏ وإخراج اللون (k)‏ 


حساب 


])1 = ١( الثوابت في الدورة‎ — (D) في الدورة‎ casa] 


e SE (Ve (قيمة صغيرة‎ 
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وني ختام هذا الفصل JA‏ الإشارة إلى التطور الحائل في Jue‏ استخدام الشبكات 
العصبية في الأبحاث الخاصة بمجال حوسبة اللغات الطبيعية. لقد تطورت الأشكال 
والأنماط هذه الشبكات العصبية تطورا هائلا وأعطت نتائج في معظم الحالات أفضل 
بكثير من تلك النتائج التي كنا نحصل عليها بالطرق التقليدية. إلا أنه من الملاحظ أن 
الطرق التقليدية تتفوق عندما يكون حجم البيانات المخصصة للتدريب قليلا نسبيا. 
وحتى في هذه الحالة هناك ناذج ظهرت سبق أن تدربت على بيانات كثيرة متوفرة؛ 
ولكن لهام مختلفة أو للغة أخرى. وعندئذ يبدؤون تدريب هذه الناذج سالفة التدريب 
على القليل من البيانات المتاحة» فإذا بها تعطي نتائج ممتازة. ستكون السنوات القادمة 
مليئة بإنجازات هائلة في Jle‏ حوسبة اللغات الحية با يقربها من المستوى البشري 
المعجز. وستكون هذه من الفتوحات العلمية التي s‏ الله علينا cle‏ وسيتجلى تأثير 
ذلك d‏ كل ساس ٠ dull‏ 
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الفصل الخامس 
7 
e > . +‏ الا Ld‏ د 


عو ar‏ 
د. حسن Ole‏ 


ol -١‏ العددىّ. 

-Y‏ التنعيم. 

7T‏ موضوعات تساعد على تسين التّحو العددي. 
-٤‏ تقويم قوة التحو العَدَّدِيّ. 

0- مجالات الإفادة من النّحو العَدَدِيٌّ. 

-T‏ أفكارٌ بحثيّة لأطروحات علمية مُستقبليّة. 
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0 


Ae 

E N N AGE 
مشاعره وأفكاره المتجدّدة» إذ يمكن للإنسان أن يعبر عن معنى يجول في خاطره بعددٍ‎ 
كبير جدًا من ا مَل التي تؤدّي نفس المعنى. وربا تختلف عن بعضها في الدّقة والبلاغة:‎ 
وهذا بعل وضع إطار رياضي دقيق للتعبير عن فهم‎ (e والمشاعر المحيطة بالمعنى.‎ 
ds المتحدث وقصده أمرًا بالِعَ الصّحُوبة - إن لم يكن مُستحيلاً - في الوقت ال حالي؛‎ 
التقنيات اللّكّويّة إلى تحقيق‎ A الوقت ذاته لا نستطيع الاستغناء عن نمذجة اللّخة‎ 
على الكلام المكتوب أو المنطوق.‎ JII oes ases أهدافها المنشودة في مجالاتِ‎ 

وعلى سبيل Ub‏ في مجال I‏ على الكلام المنطوق» GC afl y‏ أن EA EAM‏ 
نطق Me‏ تحتوي على ٠٠١‏ فُونيم) متتاليًا (حوالي ١7-٠١‏ كلمة متصلة) - آخذينَ في 
الاعتبار أن dol‏ الأنظمة التي تتعرّف على الكلام المنطوق لا يتتجاوز متوسط ids‏ 
٠‏ لكل فونيم على حدة - OB‏ درجة دقة التقنية على مستوى الجمل إذا EL‏ 
فن استتخداء 6s e‏ عل e‏ اليك ق مرل JI‏ 


عدد الفونيمات المكونة للكلمة أو الجملة بافتراض متوسط دقة /۸٠‏ لكل فونيم 


EVEN عدد الفونييات‎ 
Z^* ١ 
LE = 1^/CIA) ۲ 
Loy, Y 2Y^C]A*) Y 
LA, V8 (متوسط الكلمة) ا“‎ ١ 
Ji tiM (جملة قصيرة) ا‎ ٠١ 
LeZe ANCA) (جملة متوسطة)‎ ٠ 


الجدول 1-0 : Š‏ الكلمات والجمل بدون نموذج لغوي. 
Ui‏ هذه cq‏ سودي الاستغناء عن (e SUE e$ gel‏ إلى نتائج ليست ذات 
قيمة» وبالتالي cx 5 eran‏ على الكلام المنطوق عديمة الفائدة بِخُلوّها من 
هذا التّمودّج. I5] Ul‏ اعتمدنا عليه فإن الكليات العربية في صُوربها المفردة ستتحرّك 
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من 7, /٠١‏ إلى أكثر من ٩١‏ (في ظروف تسجيل مناسبة)» بمساعدة النَّاذِجِ اللْعَويّة 
باعتبارها مجموعة من المعلومات DALII‏ الموضوعة في قالب رياضي؛ وبعبارة أخرى. 
deas‏ «نمذجة (Language Modeling) (Ul‏ في تحقيق الفائدة من تقنيات FOU‏ 


ونستطيع التّمثيل على ذ i‏ بتحليل المقطع d] LAS Ga‏ حيث تحمل اللّفظة 
«Jp‏ أن تكون agh. ١‏ أو «p EU «b Y‏ . ونستطيع iis ol‏ على الاحتمال 
الأقرب إلى l poll‏ بتحليل es‏ هذه الكلمات في سياقاتها «d AU‏ وبافتراض Léi‏ 
قبا عط LAS GE‏ وتعرفنا Mele‏ بشكل qure‏ فنا ol Ja‏ كلمة (4p‏ 
هي الأكثرٌ التصاقًا بهاء مايعني أن الاحتمال UNI‏ أقربُ إلى الصّواب. 


١-النحو bp‏ ال 


الأقرب di‏ الصواب من اتانيه S i at‏ العددِيّ e N-gram‏ 
هل الط EU (a‏ و ST‏ ها امداق loei JE gea y‏ دغل Ae‏ السو 
العدديٌّ ودوره في تقنيات اللّغة مُقَدّمِينَ له بالحديث عن الاحتمالات [VE c£co]‏ 


١‏ - حساب الاحتالات والاحتالات الشرطلة 

إذا كانت لدينا مدونة x X‏ تضم A‏ ا کا وكاتت إحدى E‏ كن ور دت 
aa Yr‏ نستطيعٌ tå‏ احتمال ورود هذه الكلمة في وثيقة قة تتشابة مادّتها مع 
مادَّة المدونة اللَعَويّة باستخدام المعادلة i JI‏ 


عدد مرات ورود الكلمة فى المدونة 
P(w) = s Su cl dose‏ 
عدد كلمات المدونة كلها 


END 


P(w) = =a N SSe, 


Jere ttn ng. 


أي واحد في الألف. 
حيث ترمز Ww‏ إلى الكلمة. «(Word J (Las)‏ 


وترمز P(w)‏ إلى احتمال !]555 5« (اختصارًا ل .(Probability of Word‏ 
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Ges‏ نعرف الاحتمالات المشروطة في هذا المثال: ورد في القرآن الكريم كله عدد 
cas ds VV ٤‏ وكانت كلمة «الله) هى الأكثر ورودًا فيه» وجاءت هذه اللفظة الكريمة 
۷ مرة» فكانت مرفوعة في 414 64Y ipaa s di a‏ مرة» ومجرورة في NNO‏ 
مرة. فلو سألنا عن احتمال ورود كلمة الله في القرآن الكريم كله ستكون الإجابة: 


| YV*V 
P(44)2 — — — - ا/‎ , ÉV 
"TE 
بينا لو سألنا عن كلمة القرآن مرفوعة في القرآن كله تكون الإجابة:‎ 
| ۸۰ 
P(Àl)-. =N YN 
vvar £ 


ماذا لو سألنا هذا السؤال: ما احتمال ورود كلمة Cil)‏ مرفوعة منسوبة إلى كل كلمات 
(الله) في القرآن الكريم؟ أو بعبارة أخرى: ما احتمال ورود كلمة (الله) مرفوعة بشرط 
نسبها إلى كلمة (الله) في القرآن كله؟ سيكون التعبير رياضيًا e‏ هذا التحو: 
(الله/ P&I‏ 


ast zb Eas;‏ العو sa‏ لای ol‏ شرط بيات تحال وزو د كلية 
(الله) مرفوعة هو ورود كلمة (الله) UT‏ كان تشكيلها. ويكون حسابها كالآتي: 
۹۸۰ 


1,۲ -(الله/ اش 
VV‏ 


(Uni-gram) تالو العدديّ الأحادي‎ Y, 

بعد أن قدّمنا فكرة الاحترالات Xe I‏ يُمكثنا أن A‏ فكرة عن التحو العددي. 
كا أسلفنا في المقدمة أَنَّنا في حاجة ماسّة سّة إلى معلومات عن اللّغة وعن 237 كلماتها 
وترابطها di‏ لمكن من دعم JH‏ الصحيح في تقنيات كثيرة من تقنيات اللّغات 
il Jt ERE‏ أن هور ell‏ العدديّ diee YI‏ في L‏ لخمسينيّات من القرن العشرين 
باعتباره مسارًا Lam]‏ يُستَخْدَم في ÉLI ENT Li‏ قد لاقى عزوفًا من قبل 
db od d oa‏ لعي ما Sag Hec AES SI 55 3l‏ 


من X‏ لهذا المسار. ولكن بعد أن نجحت شركة IBM‏ في السبعينيّات من العودة إلى 


ELS 
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poc‏ العدديّ بنجاح» A‏ الباحثون في تقنيات AXE‏ الحية إلى الاستعانة به» حتى 
غدا أساسا لا غنى عنه لمطوري هذه التقنيات. 

دعنا نأخذ مثالاً مطولاً لفهم النّحو العدديّ [أو اللإحصائي] N-gram‏ لو تصوّرنا 
أن لدينا مدونة لغوية مُبَسّطة تتكون من هاتين الجملتين: 


«(دهب محمد إلى المدرسة») 
«حين وصل محمد إلى المدرسة قابل زميله أحمد» 


عدد الكلمات في هذه المدونة المبسطة NY‏ كلمة؛ وبإضافة رمز لبداية جملة )353 
ورمزنهاية جملة )5723( Gels s‏ كلمتان مضافتان لمفردات المدونة» يكون عدد الكلمات 
7 كلمة. أي: عدد مفردات المدونة ١5‏ مفردة VY)‏ بدايتين لجملتين وهايتين). 

وقبل po‏ ف ترضح eue‏ الحو eral‏ قوذ أن ad‏ إل قا :عام 
الرّياضيّات ies‏ أندريه ماركوف MoD‏ -1977) بوضع نموذج gèlo‏ مبسط 
Sez‏ بالمستقبل بالاستعانة فقط ببضع خطوات من الماضي. سوق id‏ ماه 
الرياضيٌ فيما يلي: 

لنحسب للمدونة المسّطة السّابقة بقة (والّتي لا يتعدّى محتواها 7 (Gs‏ حسابات 
تدخل في مفهوم النّحو العدديّ: 

(uni-gram ا الأول في النحو العددي ب «النحو الأحادي‎ Dos Sh 
وفيه نحسب فقط احتالية تكرار كل كلمة بصرف النظر عن ما قبلها‎ cI-gram أو‎ 
في الجدول التالي:‎ eM أو ما بعدهاء على النحو‎ 


| ii م | مُفردات المدونة 5329 5,5530( النّحو الأحاديّ‎ | 
(0 A[ NS IY Y ile بداية‎ 
MET BTE ١ ذهب‎ y 
(0 /م‎ 10 Y des y 
TEL 8/0 Y di t 
(0 IPXIL Y المدرسة‎ o 


-Ye- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


| a) م | مُفرداتالمدونة | التَرده(الوُرُود | النّحوالأحاديّ‎ | 
كل‎ y0 ۱/۱ ١ حين‎ 1 
يل كل‎ ۱/۱ ١ وصل‎ ۷ 
و0٥0‎ ۱۹/۱ ١ قابل‎ ۸ 
LESE Y /* ١ زميله‎ q 
ERSTE ۱/۱ ١ أحمد‎ E 
هه‎ AD SAT Y الجملة‎ ile ys 
Y ts PEE 31 المجموع‎ 


الجدول ه-7: حسابات النّحو الأحاديّ لمفردات الدَوّنة ABE‏ 


(Bi-gram) التّحو العدديّ الثنائىّ‎ Y, Y 
إذا نظرنا خلفنا لكلمة واحدة» واستعتا‎ oll يمكن الارتقاء درجة وحساب النّحو‎ 


هذه المعلومة للسابات المستقبل: فبالنظر إلى الجدول رقم )0 -1) ستلاحظ اننا نع في 
حساباتنا (بداية الجملة) و (نهاية الجملة). ويسكّى هذا بالتحو [YE £o] ZLIN‏ 


الكلمة السابقة 
EEE‏ كاه AEE‏ 
Jeila ١‏ 
Y‏ ذهب ١‏ 
Y‏ محمد ١ ١‏ 
إلى Y‏ 
o‏ المدرمنة Y‏ 
1 حين ١‏ 
١ Jes ۷‏ 
^ قابل ١‏ 


yes 


Je YI‏ الشرطى 
للنحو الثنائي 
P(w w)‏ 
(ذهب/ بداية PLA‏ 
(محمد/ ذهب)2 
(إلى/ محمد)م 
(المدرسة/ PCJ‏ 
(باية حملة/ المدرسة)م 
(حين/ بداية)م 
(وصل/ PG‏ 
(قابل/ PG A‏ 
(زميله/ PC pU‏ 
(أحمد/ زميله)م 
ble)‏ حملة/ أحمد)م 


دهب 
بداية حملة 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


إلى 
محمد 


الجدول i-o‏ النحو الثنائي للمدوّنة. 


عدد ورود 
الكلمة 
C(w, )‏ 
Y‏ 
١‏ 
Y‏ 
Y‏ 


لوكانت: 
C(w, ) =1‏ 
لو کانت: 
C(w,) 2‏ 


علد ورود 
الكلمتين معا 
C(w, Waa)‏ 
١‏ 
١‏ 
Y‏ 
Y‏ 


C(w,;w, ) 


C(w, ) 


زميله 
قابل 


P*(w/w. )7 
C(w, ,w, ,)*0.01 
C(w, )*121*0.01 
TO 
e, ۷ 
و٣‎ 
و٣‎ 
T0 
No 
e, £oV 
٥ 
e, ۷ 
e, ۷ 


., ۷ 


5, £0 


YS‏ كك 


الجدول ه-:: النحو الثنائى للمدَرّنة. العمود الثالث محسوب فيه النحو الثنائى بدون مراعاة 


-YVY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


OOV والعمود الأخير حسوب فيه النحو الثلاثى بعد مراعاة‎ OOV 

وهكذاء لو أردنا درجةً أخرى من نحو أعمق فبإمكاننا أن Laus‏ للنّحو الثلاثيّ 

Ss وعندئذ يكون‎ «(3-gram) 
P ج -(حمد إلى / المدرسة)‎ -١ 

وعليه» Eu‏ حسابٌُ النّحو الرّباعيّ lero‏ 

والآن» نريد أن نقف عند مشكلة خطيرة ة في هذا الطرح» ألا وهي: ماذا نفعل مع 
Oh E E E ed‏ 
إذا حسبنا أن مالم نره في المدونة يكون احتمال 2555 صفرا ١ YT‏ 7]. 

مثال: إذا قابلتنا عبارة (ذهب أحمد إلى المدرسة)» وأردنا الاستفادة من المدونة السابقة 
في استنباط نتائج مفيدة: 

= (ذهب .أحمد)ط 

سوف نجد lel‏ تساوي صفرا لأننا في الواقع لم نر هذا التركيب في المدونة التي 
استنبطنا منها نحونا الثنائيّ. ولولم نجد حلا هذه المشكلة فإن هذا سوف يسبب ضررًا 
جل و مس سمي c Mc‏ مانو 
ا تایا ورات ها SS‏ 
المدونة؟ 


(Out Of Vocabulary - OOV) مشكلة: من خارج مُفردات المدّوّنة‎ -4 ,١ 
ضرره‎ OY للنّحو الإحصائيّ أن يكون مفيداء‎ GR لولم نجب على هذا السؤال ما‎ 


سيكون أكبر من نفعه في كثير من الأحيان. وبعبارةٍ أخرى» لو لم يتمكن الباحثون من 
إيجاد حلول هذه المشكلة لما كانت لهذا النحو قائمة. 


تعالوا a Aa‏ أن لدينا نحوًا فيه ١١‏ كلمة cla‏ ووجدنا فيه ١١‏ حالة للنّحو الثنائيٌ 
يمكن أن تُقَدَّرَها تقريبا CY Ye x 1o‏ أي أن هناك (gl ١١١‏ كلمة من مفردات 


-—yVTe 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


المدونة عقب كلمة أخرى (ويمكن أن تتكرر الكلمة» في مثل قوله تعالى: EG‏ رَبك 
ولك (to Uo‏ ولكن ورود ١١‏ خالة فقط dua UG‏ رقم (EA‏ معناها أن 
هناك احتمالا ل ٠١9‏ حالات ل ترد في المدونة. والحقيقة قد يكون ورود بعض التتابعات 
مستحيلا مثل ورود بداية جملة تتبعها بداية أو Aue‏ جملة .. إلخ» ولكن في مدونة حقيقية 
كبيرة لا يكون هذه الاحتمالات أثر اذا اهملناها. وكذلك في الواقع الحقيقى يمكن أن 
نفرض أنه لن نرى إلا ~ * L0‏ من تتابع الكلمات بالنسبة لكل التتابعات الممكنة» هذا 
مقبول وحينئذ يمكن أن نحسب حساباتنا على توقع ٠١ ~ + OOV‏ كلمة „hä‏ 
ولكن في مدونتنا البسبيطة سنفرض للسهولة أن كل التتابعات ممكنة. 
حل المشكلة: 

لجأ كثير من الباحثين إلى محاولة تقدير احتهالات للمفردات والتنابُعات (الثنائية 
والثلاثية... إلخ) التي لم ترد في المدونة مع إعادة حساب التتابعات التي وردت بحيث 
يكون مجموع oM e VE‏ واحدا صحيحاء OM‏ هذه من مسلمات نظرية الاحتمالات. 

تعالوا نفترض Ul‏ أضفنا مقدارًا (SU‏ وقدره ccv‏ إلى كل احتمالات تتابع 
الكلمات؛ سوف نحتاج إلى إضافة ١١١‏ مرة ١ , ٠١٠7‏ إلى البسط في ٠١١‏ حالة» شاهدنا 
YY lax‏ حالة والباقي سنكتفي باعتبار وروده 2١, T‏ مرة تقديرا. ولذلك ستتغير 
الاحتمالات كا هو مبين في جدول رقم (E-A)‏ العمود الأخير. 

لنختبر نتائجّنا حتى الآن؛ هب UST‏ سمعنا جملة» واختلط الأمر bale‏ بين جملتين: 

* «ذهب أحمد إلى المدرسة». 

٠‏ «قابل إلى أحمد زميله» 

(لنرى معًا كيف يُستخدم النّحو العدديّ لترجيح أقرب الول إلى الصواب). 

eoe VI طيخ نظرية‎ 
P (ذهب أحمد إل الدرسة)‎ x P. (=) pu (i e) + P» (ase) * P. (s /A)) 


= Vo Kuan £o ck sue fo KF ae goy = OVA KIT 


(OOV) (OOV) 


-5/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


Cus‏ «قابل إلى أحمد زميله» 
as) x P. 609 * P+ (aV. s) + P+ (a/a) * Px (s/a)‏ أحمد P (a‏ 
Yo k Eo Ro) ue £o = AYRI‏ = 


(OOV) (OOV) (00V) 
> P (ذهب أحمد إلى المدرسة)‎ 
Ao M إذن: تكون الجملة الأولى هي‎ 


(Smoothing) التنعيم‎ -Y 
تُعرّف بعملية‎ dae تعالوا نعالج هذه المشكلة (من خارج المفردات) بطريقة أكثر‎ 

التنعيم؛ أي: تنعيم قيم الاحتمالات الناتجة عن الحساب المباشر الناتج عن قسمة عدد 
التكرارات (سواء للكلمة أو الكلمتين المتجاورتين... إلخ) على العدد ÉI‏ للكلمات 
في المدونة. وهناك طرق كثيرة للتنعيم نتعرف على gel‏ 


(Smoothing by Discount) التنعيم با خصم‎ -\,Y 
كما أسلفنا فإن مشكلة عدم ورود كل الاحتمالات الممكنة في اللغة في قواعد البيانات‎ 
المستخدمة في التدريب يسبب فشلا ذريعًا لاستخدام النحو العددي اذا لم تعالج هذه‎ 
Ne M المشكلة. وهناك العديد من الطرق لتقدير هذه‎ 


(Laplace Smoothing) تنعيم لابلاس‎ " 


وتعتمد هذه الطريقة على تقدير عدد المرات التي نراهاء ثم إضافة واحد لكل 
الحالات التى مرت بنا (ب! في ذلك المرات التى مرت «صفر) مرة)؛ وبلغة الإحصاء: 


C; 
P(W;) = N 
العدد الكلي لكلمات المدونة.‎ N و‎ cw, عدد مرات ورود الكلمة‎ C, حيث‎ 
وتصبح بعد طريقة تنعيم لابلاس:‎ 
Ci +1 
Pi aplace (Wi) = N+ V 


—YVo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


حيث V‏ عدد المفردات المختلفة التى يمكن أن نصادفها. ولنأخذ مثالا لذلك: 
هب اا تملك عدون عي * كات قط ودرا أن هناك كلمة واحدة يكن 
إضافتها؛ إذن ستكون .)۷=٤(‏ وبافتراض ورود الكلمات كالآتي: 


| عدد ورود الكلمة بعد التنعيم عدد ورود الكلمة قبل التنعيم‎ 
C,-C(w,) y ٤ 
C,-C(w,) Y y 
C,- C(w,) ١ Y 
C,-C(w) : ١ 
V =3, NO V= 4, N-10 


قبل التنعيم: N,‏ في هذه الحالة c=‏ و Y = V,‏ (مفردات): 


P(W]) a i 
w) = —= -= 0. 
HON 6 
P( Ds sia 
w) = دخ‎ -= 0. 
P(w) = — l L 0167 
w) = >= -= 0. 
دن‎ N 6 
(مفردات):‎ ٤ =۷, V, و٠١‎ = N,-- N, لتصبح بعد تنعيم لابلاس‎ 
3+1 
PLaplace(W,) = G4 0.4 
2+1 
PLaplace( W5) = 64 0.3 
1+1 
PLaplace(Ws) = G4 0.2 
0+1 
PLaplace( W;) = G4 0.1 


وإذا معت كل الاحتمالات الآن سوف تد أنها تساوي الواحد الصحيح» le‏ يتفق 


-]/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


من الواضح أن إضافة واحد صحيح لكل مرات ورود المفردات يضعف بشكل 
ملموس Jil‏ المفردات التى وردت في المدونة بتكرار قليل بالنسبة لتلك المفردات 
التي لم ترد على الإطلاق؛ لذلك op‏ هناك محاولات لتحسين هذا النوع من التنعيم 
بإضافة كمية ثابتة أقل من الواحد» وهذا يعتمد على حجم المدونة المستخدمة للتدريب. 

ولكن كيف يتم تقدير عدد المفردات ۷؟ بالنسبة للنحو الأحادي» يتم تقديره على 
أساس المعرفة باللغة؛ ولكن اللغة العربية غنية جدا في عدد كلاتها؛ ففى مدونة من 
حوالى NOA‏ مليون كلمة من الأخبار وجدنا ہا PETERET‏ 
عضن eos)‏ والكناي» عبان كلن do agile‏ ندونة امن »5 ملبون 
کل وجدنا یا قن Dado VA‏ سروق لكنيا co ml‏ عل AS‏ يران الأخطاء 
اللغوية. فنحن XS‏ المفردات الصحيحة في هذه الحالة بنحو ١ , ٤‏ مليون كلمة. لذلك 
عند التعامل مع Jle‏ مثل الأخبار (وبالمناسبة» هو من المجالات الغنية بالمفردات لكثرة 
مجالاته الفرعية من سياسة واقتصاد. ورياضة» وعلوم» وحالات الطقس... إلخ) 
يمكن فرض أن عدد المفردات التي نتعامل معها قد يصل إلى أكثر من Y‏ مليون مفردة» 
مع مُلاحظة أن اسم قرية جديدة أو مدينة GÉ‏ مها زلزالٌ يضيف مفردة جديدة للمجال 
كل يوم. 

ملاحظة: ليس بالضرورة أن تكون إضافة ١‏ هو الحل الوحيد المتاحأإذ يمكن إضافة 
كمية ثابتة أقل - كما في المثال الذي سقناه Ú‏ (وإن لم يكن بالضرورة منخفضًا li‏ ىا 
فعلناء إن) اخترنا القيمة القليلة )١ , ٠ ١(‏ لتناسب بساطة المدونة المستخدمة). وعادة ما 
يتم ذلك عبر عدة تجارب. 


ومن الجدير بالذّكر أننا في مثل هذه التجارب نحتاج إلى تقسيم المدونة إلى Y‏ أقسام: 
٠‏ القسم الأول للتعلم (في حالتنا لتعلم النحو العدديٌ). 
* القسم الثاني لاختيار أفضل القيم لبعض المعاملات (في حالتنا لاختيار أفضل قيمة 


.)...٠ و١‎ ٠ر6 للثابت‎ 


* القسم الثالث للاختبار النهائيٌ» ولا يجوز تغيير المعاملات ثم إعادة التجربة» لأن ذلك 
يعني أننا استعملنا قسم الاختبار في التدريب. لتوضيح ذلك» هب أننا أعددنا اختبارا 


-Yvv- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——Xsc c — 510 5‏ 


للطلاب فوجدنا مستواهم ضعيقًا في موضوع ماء فراجعناه معهم ثم أعدنا هم 
نفس الامتحان! هذا لا يفرز الطالب الحافظ من الطالب الفاهم, هذا الغرض 
خصّصٌ القسم الثاني لاغراض ضبط متغيرات JH‏ 
* خصم جود تيور 3[ (Good-Turing Discount)‏ 
وهي FT‏ إحصائيّة» C‏ إلى العالمين cp‏ جود (Irving John Good)‏ وألان 
تيورينج (Alan Turing)‏ . وتعتمد منهجية å‏ الخصم هنا على فكرة بسيطة. إذا حسبنا 
عدد المفردات التي وردت في المدونة مرة واحدة» ولنسمها N,‏ > وعدد المفردات التي 
وودّث ف المدونة مرئين» ولنسمها N,‏ وهكذا سنحصل على cN, cN,‏ ,... 
وكذلك يمكن تقدير ,× أي.. المفردات التي لم ترد في المدونة - ولو تقديرًا نظريًا؛ 
فإننا لو افترضنا في تخصص معين أننا لن نتجاوز المليون مفردة» فإن 
N,-1,000,000 - N, - N,- N,- N, .......‏ 


ونعود لمنهجية تقدير احتماللات ورود المفردات: 


Ne, 
- (C^ 1) C41 


C 
التكرار الظايري لأخراض تنديم‎ C حي © خوهنة ا و‎ 
كلا قلت‎ cols Jal ومن الملاحظ في 3 مدونة أنه كلما زادت تكرارات‎ Ye 
aas آکر فخ‎ uc (هذه العلامة < تعني أن‎ N ` أعدادها؛ وهذا يعني أن‎ 


ولذلك يمكننا اعتبار أن ' نع س التخفيض في الأعداد. ولو لاحظت أننا 
N‏ 


6 


زدنا (۱» وخفضنا بمقدار E‏ 


Ne 


٠‏ تخفيض في قيم coe VI‏ لما ورد من مفردات المدونة. 
t‏ وجود قيمة co Ye Y‏ ورود المفردات التي لم ترد في المدونة. 
dus‏ نستدعي مدونتنا الصغيرة مرة أخرى: 


٠‏ ذهب محمد إلى المدرسة. 


—YVA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
1كظهكهةمة2© ١١١‏ 


٠‏ حين وصل محمد إلى المدرسة قابل زميله أحمد. 
في مدونتنا السابقة؛ ك| ورد منها في مدونتنا البسيطة ١١‏ كلمة. 
إذن: تكون الأعداد N,‏ كالآتى: 
—yvy— ١١-6‏ (عدد المفردات التي لم ترد في المدونة) N,‏ 
1 = (عدد المفردات التي وردت مرة واحدة) N,‏ 
0 = (عدد ela al‏ التي وردت مرتين) N,‏ 
محمد إلى» المدرسة» بداية الجملة ونهاية الجملة» ولا تنس أن عدد الكلمات الكلّ 
المشاهد في المدونة هو ٠١‏ كلمة = N‏ . وعليه» سيكون تطبيق منهجية التنعيم باستخدام 
جود تيورينج في تقدير احتمال النحو الثنائى الذى لم نره في المدونة: 


N 
(0+ DN" 6/109 
———À- = 4 


Por (s (لأي تتابع لم‎ = N 16 


والرمز Por (x).‏ يعني احتمال ورود (x)‏ بتنعيم جود تيورينج. 
-Y,Y‏ التنعيم باستخدام (Interpolation) co»‏ 
ترتكز طرق التنعيم بالمخصم على تقدير قدر مناسب من e MI‏ للحالات التي 
لم نر فيها az‏ ما ورد علينا في المدونة. ولكن التنعيم بالإدراج يفيد في حسن تقدير ما 
ورد علينا في المدونة» وذلك كالآتي؛ إذا أردنا تحسينا للنحو الثلاثي مثلا: 
W-2) = A, PCW4/ Ws. , Wa 5)‏ | رقا P(W,/‏ 
à, PCWA/ Wa 1)‏ + 


+ POS) 


ht htl 


-11/4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


وقيم ب( أعلاه يمكن إيجادها بإجراء التجارب ووضع قيم مختلفة ها واختيار القيم 
التي تعطي أفضل النتائج للنحو (حسب المشكلة المستخدم فيها النحو). 

ولقراءة هذه المعادلة لتكون مفهومة أكثر سنعيد كتابتها بالكلام: 

الاحتمال المقدر للكلمة ن بشرط ورود الكلمتان ن-١»‏ 0- =Y‏ 

ثابت يقدر من مدونة التدريب Jo! k‏ كلمة ن b‏ ورود الكلمتان "AE‏ 

ن-"قبلها 

ثابت آخر يقدر من مدونة التدريب * احتال كلمة ن بشرط ورود كلمة ن-١‏ 

قبلها 

ثابت آخر يقدر من مدونة التدريب * احتمال كلمة ن (أى النحو العددى) 

على أن مجموع الثوابت الثلاثة لابد أن يكون واحدا صحيحا. 

والفكرة من وراء هذا التحسين لتقدير النحو العددي تتبين من هذا المثال: 

JU»‏ الله تعالی» و «رضى الله عنه». 

نفترض Nass‏ أننا عند دراسة النحو الثلاثى لكلمتى (J)‏ (وعنه) وجدنا أن 
تكرارهما متساو في المدونة؛ ولكن كان ورود (الله تعالى) أكثر من (الله عنه)؛ وعليه.. 
فسيّساهم هذا في رفع احتمال (قال الله تعالى) عن (رضي الله عنه). 


(Smoothing using back-off) el التنعيم بالتر‎ ey y 

(Katz back-off) jil ce تر‎ 7 

1 يستخدم تراجع كاتز - عادة - PSs s‏ لخصم جود تيورينج؛ وتستوحی فكرته 
من التنعيم بالإدراج؛ ويمكن من خلاله فهم كيفية تقدير النحو العددي من درجة del‏ 
بدلالة النحو العددي من الدرجة الأدنى منه مباشرة في المدونة. 

لو أن عندنا نحوا ثلائيا مطلوب تقديره» UM‏ ثره في المدونة» OB‏ الطرق السابقة 
للخصم - ورب أفضلها حتى الآن جود-تيورينج -ستعطي كل مالم نره نفس الاحتمال» 
ولكن «كاتز) يُقدّرها اعتمادا على النحو الثنائي والأحادي إذا لزم الأمر. وهذا يعني أن 
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نعطي احتمالا أكبر للنحو الثلاثي المقدر لكلمات لم ترد في المدونة إذا كان نحوها الثنائي 
أكبر. ولبسط التعريف الرياضى انظر اسفل الصفحة". 

(Kenser-Ney) €, cU باستكا طريقة انز‎ gest " 

نستطيعٌ الوقُوفَ على هذه الطريقة à‏ من خلال المثال التالي: 

أردت أن أقرأ فأخرجت ...... ول يرد في المدونة مثل هذه الجملة قط 

بافتراض وجود كلمتين مرجحتين C s‏ نفس النحو العددي c I‏ هما: 

e‏ «النظارة» (ما ورد في المدونة: عملت النظارة» وقعت النظارة» استخدمت النظارة» 

وضعت النظارة»....). 

* «بور» والتي لم ترد إلا في (بور سعيدء بور فؤاد). 

فإن كلمة «النظارة» ترجّح» OY‏ ورودها مع كلمات أكثر في المدونة يجعلها مرشحة 
للورود أكثر من كلمة «بور» فيما ل Poy‏ 


-١‏ نحتاج أن نعّرف: 
أي تكرارات C(x)= count of x "x"‏ 
X Jil‏ بعد الخصم (باستخدام طريقة من طرق الخصم السابقة) P*(x)‏ 
وبدلا من استخدام Wa‏ 0 فإننا سنستخدم x,y, Z‏ لتكون المعادلاات كالآتي: 


nm Wi 5 


P'(z/x, y) if C(x,y,z) < 0 
Pyaiz(z/x, y) = (* (x, y)Pkaiz(z/Y),. else C(x, y) > 0 
P'(z), otherwise 


e P'(zly, if C(y,z) >0 
Praz) = ( x Q)P'(2) otherwise 


حيث » تعني معامل التطبيع (لتجعل مجموع Y ce YI‏ صحيحًا)» ولنقل اعتاد cl‏ العدديٌ من درجة 
أعلى إلى درجة أقل (y) ul.‏ أو oc‏ فتعني أن هذا المعامل متغير يعتمد على ما بين الأقواس 
d,‏ الإشارة إلى ol‏ تراجع S‏ يمكن تعميمه عل "i‏ درجة من النحو العددي؛ أي أن اقتصار المعادلات 
التي la‏ عل التحو العددي من الدرجة EI‏ هر لجرد البسيط وتوضيح الذكرة ة. كذلك oli‏ المعاملات » 
يجري حسابها أيضًا من تكرارات النحو الأحادي والنحو الثنائي . .. إلخ. 
١‏ - وتصاغ معادلاته كالآتي: 
Hwi- 1:CCwj- 1wi)7 0}‏ 


TROC Wy, jl {Wi 1:C(Wi- wo 01‏ 
یٹ 4 لايخ يطرح من حل deed‏ اتسر اتن ورو في ادرت 
و LÉ (wi)‏ (وهي مختلفة من كلمة لأخرى) لتجعل مجموع الاحتمالات ١‏ صحيحًا. 
0305 < سر vi Cw;‏ | تعني عدد الكلمات المختلفة Ow, p‏ التي ترد فيها مع في المدونة» مع ملاحظة 
أننا نحصي التنوع وليس عدد مرات الورود. مثال: لو وردت الكلمة ٠١ Qv)‏ مرات مع كلمة وه مرات مع كلمة 
أخرى «dad‏ » فيكون مفهوم التعبير الرياضيّ المذكور هو Y‏ وليس ٠١‏ . (حيث يشير التعبير الرياضيّ |. ...| إلى أن القيمة 
المذكورة تشمل عدد الأنواع» وليس عدد التكرارات). 
Owiwi) < 0j E‏ :رالا | ,< تعني مجموع عدد المرات التي وردت فيها cos‏ مختلفة في المدونة كلها. 


Cwi- m à, 


P(w wii) = Cri. 
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Y‏ - موضوعات تساعد على تحسين النحو العددئ 
us dla‏ اشراب الى شياع عل شن idi‏ :وين دك 


(Class Based N-gram) النحو العددى الفئتوى‎ - Y, Y 
خذ هذه الأمثلة:‎ 

كان راتب سعيد ٠٠١١‏ جنيه في الشهر 

ذهب على إلى الإسكندرية يوم الأربعاء 


ركبت مريم طائرة مصر للطبران 

فلو ارتبط النحو العددي برقم )٠٠١١(‏ فقط لما استفدنا من هذه المعلومة لو جاء الرّاتب 
ختلفا في موضع جديد؛ ولكن يمكن أن نحدد أن هناك فئة من الأرقام يمكن أن يحل أحدها 
مكان الآخر. وكذلك أيام الأسبوع أو الشهور أو أسماء شركات الطيران... إلخ. 

ففي المدونات قليلة العدد يمكن تعظيم الفائدة منها إذا عالجنا بعض الأسماء 
والأرقام باستخدام اسم الفئة التي تنتمي إليها هذه الأساء أو الأرقام. 


(Topic Based N-gram) |,» g 4l النحو العددي‎ - Y , Y 

تتأثر النتائج كثيرا بشكل ul]‏ إذا استخدمنا نحوًا de‏ من مدونة ذات موضوعات 
مشابهة للموضوع الذي نحن بصدده. 

elige ها عل‎ [un gu جاب اا العاف‎ $a 
متشابمة» مثل (مدونة سياسية؛ اقتصاديةء علميةء قانونية»... إلخ). وهناك إضافات نوعية‎ 
قد تكون مفيدة عند استخدام النحو العددي» ومنها الاستفادة من ظاهرة: الاستدعاء.‎ 


-Y Y‏ دعم goi‏ العدديّ بالاستفادة من ظاهرة الاستدعاء 
i>‏ هذا المثال: 
ذهب إلى 
ذهب محمد إلى 
ذهب محمد des‏ إلى 
ذهب محمد des‏ وسمير إلى 
تلاحظ أن كلمة «ذهب» استدعت وجود كلمة ID‏ في كثير من الأحيان بعدها. 
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(Variable length N-gram) العددى متغير الطول‎ p= £,Y 
للنّحو العدديّ أهمية قصوى في تطبيقات كثيرة؛ ولذلك نحتاج إلى دعمه بنظريات‎ 
Q3 جديدة لغوية المنشأ مستوعبة لاحتياج الحاسوبيين» وخاصة مع اللغة العربية التي‎ 
نحتاج في كثير من التطبيقات» مثل: التعرف على‎ GS الاشتقاق والتّوليد. وإذا‎ Gals 
آلف كلمة تغطي 944/ من احتياجات‎ ٠٤ الكلام المنطوق في اللغة الإنجليزية» إلى‎ 
٠٠١ فإننا نحتاج إلى أكثر من‎ (Business الأعمال‎ Jle معين (مثل‎ Jie الكلمات في‎ 
آلف كلمة عربية لنقرب من درجة التغطية 7.4 إن ذلك يجعل احتياجنا لمدونات كبيرة‎ 
جدًا لا مفر منه» والاحتياج إلى المعالجات اللغوية المسبقة ضرورة. ومن هذه المعالجات‎ 
التحليل الصرفي لمعرفة السوابق واللواحق وجذع الكلمة» وربا نحتاج أيضا للوزن‎ 
والجذر. (اللافت للانتباه أن العربية مبنية بعدد محدود من السوابق واللواحق والأوزان‎ 
عميقة‎ kale والجذور) إلا أن بناء النحو من هذه اللبنات له تحدياته ويستغرق جهودًا‎ 
من اللغويين والحاسوبيين للخروج بنحو عددي يستفيد من ميزات اللغة العربية‎ 

وتطورها cC all‏ ويلبى حاجة التطبيقات المختلفة. 


> - تقويم قوة النّحو CY‏ 

نحتاج إلى تقويم كفاءة النحو المستخدم, ففي بعض التطبيقات يقيسون هذه الكفاءة 
lo‏ يسمى مقدار (Perplexity) t LIYD‏ وكلما قل الالتباس يعني ذلك كفاءة أعلى 
للنحو المستخدم. ويحسب مقدار الالتباس كما في المثال التالي: 

على سبيل المثال» في اللغة الإنجليزية بحسب الالتباس عندما لا يكون هناك نحو على 
الإطلاق في تقنية التَعَرّف على الكلام المنطوق لعدد كلماتٍ AIR‏ تدرّبَت عليها التقنية 
ومقدارها 86+ CA‏ 


فكان مقدار الالتباس كا هو مين في الجدول الآتي: 


| النحو العددى (N-gram)‏ الالتباس (Perplexity)‏ | 
بدون نحو على الاطلاق Yee‏ 
النحو الأحادي (Uni-gram)‏ ۹1۲ 
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| النحو العددى (N-gram)‏ الالتباس (Perplexity)‏ | 
النحو الثنائى AE (Bi-gram)‏ 
النحو الثلاثى Y*4 (Tri-gram)‏ 


لننظر كيف انخفض مقدار الالتباس من ۲۰۰۰۰ بدون أي معلومات معطاة للنظام 
عن اللغة» إلى فقط ٠١9‏ بعد استخدام التحو الثلاثيّ. CON‏ ال اه الأرقام 
كالآتي: كأن المهمة التي تلقى على عاتق ى النظام قبل إعطاءه أي معلومات لغوية عند 
التعرف على الكلمة التى سمعها هى مهمة اختيار كلمة من ٠٠٠٠١‏ كلمة. وليس له 
on s‏ هذه e MET‏ مامه ios‏ ق deos‏ القن Sl‏ 
إذا أفدنا النظام بمعلومات عن اللغة واستخداماتها وتتابعات كلماتها ملخصة في النحو 
الثلاثي لتصبح المهمة كا لو كانت هي التعرف على كلمة من 94 ٠١‏ كلمة فقط باستخدام 
المعلومات الواردة من الصوت. هل نستطيمٌ تصوّرٌ النتائج في الحالتين؟ JULI‏ الأولى: 
يفشل النظام تماما في الوصول إلى نتيجة ها أي اعتبار» أما في ا حالة الثانية op‏ النتائج 
يمكن أن تزيد عن /4٠‏ كنسبة دقة في التعرف على الكلام المنطوق في ظروف مناسبة. 

فبالرغم من بساطة فكرة النحو العدديّ إلا أنه - وبعد المعالجات المختلفة لما لم يره 
من كلمات وتتابعات - أصبح مُفيدا للغاية وعمليا إلى درجة كبيرة. 

هل لبيك لعي اا ذكرة نيه كهذه يصلع مع edo‏ أن نل eod‏ أفضل؟ إذا 
أمكن fet‏ اللّغة رياضيّاء Up‏ كعاملين في مجال تقنيات اللّغة سنستفيد كثيرا من ذلك. 
فشمّر واجتهد. 


وهناك العديد من الأعمال الآن في مجال توليد ناذج لغوية من الشبكات العصبية؛ 
والنتائج تتحدث عن تفوق ملموس عن النحو العدديء إلا أنها تحتاج لحسابات تأخذ 
في الغالب وقتا أطول بكثير من ذلك الوقت الذي يحتاجه النحو العددي. 
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ه- أمثلة على مجالات الإفادة من الحو العَدَدِىٌّ 

-١‏ التَّعرّف على الكلام المنطوق؛ كما أسلفنا. فربم| كان هذا هو التطبيق الأول الذي 
أظهر قوة النّحو العدديّ وتمّ من خلاله علاج أخطر مُشكلاته» وهي عدم 
رؤيته لحالات كثيرة محتمّلة. 

-Y‏ التدقيق الإملائي؛ es UJ,‏ إشارات الخطأ الحمراء C uli‏ إليها 
البرنامج sS‏ «ميكروسوفت ورد (MS-Word‏ » وما يرفقه من احتمالاتِ 
للصّواب. إن أصل العمليّات التي يقوم بها هذا المدقق الإملائي هي من مثل 
الحو اعدف 

ae IY‏ الآلية؛ فقد Lco dac‏ الترجمة الآلية» وأمكنّ من خلاها توليد عباراتٍ 
أكثر دقّة عند استخدام الحو العدديّ في توليد الترجمة للّغة المستهدفة. 

-é‏ كما أن هناك في ساحة حر كات البحث فرصة لتحسين البحث باستخدام النحو 
العددي. 

- وكذلك في التطبيقات التعليمية لتعليم اللغات حيث يستخدم الحاسب لتحليل 
ما كتبه المتعلم والحكم عليه. وهنا أيضا يستفاد من النحو العدديٌ. 

-٦‏ هناك نظم للتعرف على الحروف العربية» فمنها المصمم للتعرف على الكلام 


المطبوع» ومنها المصمم للتعرف على الكلام المكتوب باليد» ولولا استخدام 
النحو العدديّ في هذه التطبيقات لكانت النتائج جد هزيلة ... 


^- أفكارٌ on‏ لأطرُوحاتٍ Éole‏ مُستقبلية 
-١‏ تكوين مدونة لبعض المجالاتء SLÅ‏ موضوعاتها بحيث تحقق أعلى تغطية 
للكلمات التي يمكن أن GU‏ في هذا المجال. 
CY‏ البحث في أفكار جديدة idal‏ مشكلة الكلمات التي ل نرها من قبل G)‏ المدونة 


المخصصة للتدريب)» والتي نسميها التنعيم. كلما استفدنا من خصائص اللغة 
us‏ كانت الحلول أوفق وأفضل. 


—YAo- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


-Y‏ تكوين موارد لغوية تساعد على تفضيل كلمة عن كلمة أخرى متقاربتين في 
النطق أو الكتابة Besl‏ على خصائص دلالية للكلمتين. 

4 - عمل معاجم مستنبطة من مدونات ترجح استخدام كلمة عن كلمة متقاربة 
معها فى الرسم أو النطق تبعا للسياق. 

-o‏ تحتاج كثير من التطبيقات كالتعرف على الكلام المنطوق إلى معرفة نطق الكلمة 
الصحيح من سياقها - فوضع منظومة من القواعد المساعدة لضبط الكلمة من 


سياقها سيساعد كثيرا. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الدكتور/ oe‏ عبد SAJI‏ علي رشوان 

Tol cuan xn‏ بقسم الإلكترونيات والاتصالات 
الكهربائية في كليّة اهندسة — جامعة القاهرة. cO‏ عام ٠۹۷۷‏ 
وكان الأول على دفعته» وحصل على a»‏ ماجستيرات» ثم 
على b gll‏ من جامعة كوين بكندا؛ أشرف على أكثر من مائة 
رسالة ماجستير ودكتوراه. يدير iS ÉN‏ ا هندسيّة لتطوير Gi‏ الرّقوِيّة ai RDI‏ 
في مجال تقنيات اللّغة العربيّة. 


الدكتور/ لمعت بالله السّعيد ab‏ 

أستاذ الدّراسات اللو ية المُساعد بجامعة القاهرة» وأستاذ 
RW E icf dignas EEE SL‏ 
ومنسق وحدة الموارد المعجمية بمشروع م مُعجم الدّوحة. 
LS‏ نحوّ ثلاثنَ ورقة (eade‏ بالإضافة SOR‏ 
في المُعجَويّة CI‏ والدّراسات i a‏ المُعاصرة» ee‏ اک من دة 
£o ttes‏ في ميادين عة اللات eal‏ حصل على عددٍ من الجوائز 
في يدان aaa‏ منها : جائزة (ألكسو (ALECSO‏ للوبداع والابتكار في t Lm‏ 
ZI LU JU,‏ لل er setis E‏ زة راشد بن حميد للعلوم والثقافة. 


الدكتور/ عبد العاطي إبراهيم هوّاري 

عمل باحثًا زائرا في جامعة جروج واشنطن» في الولايات 
E‏ الأمريكيّة. حصل على درجة الذكتوراه في اللسانيات عام 
e cds qus (Yr‏ لتر der‏ 
باحثًا في جامعة كولورادو وجامعة كولومبيا الأمريكيّة قبل أن يجُه 
العمل و جاينة تجررج ركنن CPI‏ 
في الدّلالة المحجميّة وقضايا Gamall‏ العَرَيّة والصرف العربي» كما شارك في العديد من 
الأ قرات الدولكةذاخل فصر Sae alg s‏ ين dI cold gl‏ المشورة: 
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الدكتور/ سامح سعد أبو الجد الأنصاري 

يعمل أستادًا للّسانيّات الحاسُوبيّة ورئيسًا لقسم الصَّوتِيّات 
والنّسانيّات Iss‏ الآداب بجامعة الإسكندريّة» ومديرًا لمركز 
اللات الحاسوبيّة العربيّة بمكتبة الإسكندَرِيّة. شارك في العديد 
من المشروعات العلمية Sy‏ العَدِيدَ من الأوراق البحثية المعنيّة 
حرست الل UE‏ ومر فر ues‏ اللسايات ال 
N MANNS E E ee Uit‏ 
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مباحث لغوية 01 


الموارد àjgalll‏ الحاسوبيّة 


يُصدر مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)؛ وذلك gag‏ خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد ب4 استكتاب نخبة من المحررين والمؤلفين 
للنهوض بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل 2 المجالات التي LS‏ إليها هذه السلسلة؛ سواء أكان 
العمل علميا بحثياء af‏ عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة 2 هذه 
السلسلة. 

Sas‏ الأمانة العامة أن تشيد بجهد السادة المؤلفين؛ agg‏ مُحرَرَي الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية ب2 هذا السياق البحثي. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركز. الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربية؛ وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجّهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلميةء وتكثيف 


الجهود, والتكامل نحو تمكين لغتنا العربية, وتحقيق وجودها السامى 4 مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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